探访北京新质生产力·走出实验室旧瓶难装新酒,分布式数据库攻关传统运维难题
数据库,和芯片、操作系统一样,是现代信息技术的三大核心基础之一,是IT基础软件的“命门”。数据库的安全、稳定、可靠、性能、容量,对国计民生有根本性的影响,也直接影响数字化转型的进程。
这话毫不夸张,随着信息技术的迅猛发展,各行各业产生的数据量呈爆炸式增长,传统集中式数据库的局限性在面对大规模数据处理中逐渐显露,分布式数据库应运而生。
北京商报记者了解到,分布式数据库解决了传统集中式单机数据库时期的问题,打破了后者面对海量数据在处理、存储、性能等方面存在的瓶颈,且分布式数据库的高可用能力,保证了不会因为单点故障而影响整体的可用性,这也保障了金融、电信等对高可用需求较高业务的连续性。
重构“根基”
什么是数据库?不少人对此还较为陌生。
有人这样解释,你可以将数据库看作为一名“超级会计师”,如果没有数据库,存储的数据可能像把一堆书随意堆放在房间里,不易找寻还容易丢失。但有了数据库,就能按特定的规则和顺序来存放这些数据,还能进行各种查询、更新、删除等操作。
那么,分布式数据库对于金融行业来说又有何意义?
近年来,数字化转型已经逐步从头部金融机构带动效应下的“选择题”,发展成为几乎所有金融机构需要面对的“必答题”。随着全面迈入数字经济时代,数据量也正在从TB级跃升至PB级,甚至ZB级。
OceanBaseCEO杨冰进一步告诉北京商报记者,IT领域“旧瓶”(旧的数据架构)难装“新酒”(新的数据量级),数字化转型也需要一套现代数据架构的有力支撑。其中,数据库就相当于“大树”(数据架构)的“根基”,“根基”决定“果实”(数字化转型)的优良。立足当下,传统数据库已不能满足现代数据架构需求,金融机构急需彻底重构“根基”。
OceanBase是蚂蚁集团自研的原生分布式数据库。此前,中国的数据库市场几乎都是海外产品,但随着访问量、交易量指数级攀升,所对应要购买的数据库资源也随之直线攀升,企业不堪重负,瓶颈也很快显现。
有报告指出,传统数据库在数字经济时代面临技术架构复杂、使用成本高以及安全性等严峻挑战,企业迫切需要采用新一代数据库来处理海量数据,利用架构升级来消弭高昂的软硬件成本,并需要加强数据分析能力以推动企业洞察驱动的决策模式,从而进一步加速数字化转型。
“那个时候的数据库都是集中式,没有办法处理大数据,面对高并发的一些场景也没有扩展能力,随着互联网的需求爆发式增长,我们需要一个有扩展能力的分布式数据库,所以我们就决定自己做。”杨冰介绍,从0至1,很多都得打破重来,如何重新设计一个架构适应未来的发展,是技术上的难点;另外,如何处理海量数据以及确保数据一致等等,也是逐步解决掉的问题。
“数据库是用出来的。”杨冰称,OceanBase从2010年立项,写下第一行代码,坚持完全自主研发,在过去十多年间,从互联网支付核心到全场景金融核心,再到政企民生、运营商核心场景,以及新零售、新制造、互联网海量场景,OceanBase参与并支持了多次关键业务负载,并不断深度完善、快速迭代。
择最优执行路径
随着业务发展与数据处理需求的变化,传统数据库方案逐渐面临业务抖动、扩展难、处理时延大、成本高等诸多困境,许多行业及业务场景都在谋求数据库现代化升级。但什么样的数据库能解决扩展性、稳定性和运维问题?在业内看来,这对于提升企业的竞争力至关重要。
北京商报记者了解到,在当今多样化的业务环境中,不同行业对数据库系统的需求各不相同。例如,金融风控场景需要高效的事务处理(TP)和分析处理(AP)数据库;游戏行业则更关注文档数据库的灵活性和性能;而基于位置服务的业务对GIS空间数据库的依赖尤为突出。
业务场景的复杂性导致数据库运维过程中面临诸多挑战,包括备份恢复、现网巡检、安全与法规遵从、故障排查、维护升级和性能调优等。
传统的单一数据库系统难以全面满足多样化的业务需求。运维过程中,多数据库系统的多样化诉求不仅增加了数据库管理员(DBA)的工作量,还对其技能提出了更高的要求。随着引入数据库系统的增多,运维的复杂程度成倍增加。
“这种情况下,数据库的多模能力显得尤为重要,它能够统一管理和处理不同类型的数据,在提高效率的同时简化技术栈,从而满足复杂多变的业务需求。”OceanBase资深技术专家张易谈及了多个方面。
业内许多数据库的多模功能通常以解决方案的形式呈现,其中每个引擎都是垂直的,即每一种模型都是一个数据库,它们之间相互独立。但OceanBase采用了一种不同的方法,在OceanBase中无论是KV多模还是SQL多模,它们都共享同一个分布式存储引擎。例如,SQL多模会共享OceanBase的SQL引擎,包括其中的执行及优化能力。由于这种共享,OceanBase底层的分布式存储引擎的演进也会统一影响到多个模型。张易解释,这样的设计带来的好处在于,用户不再需要担心单一模型的生态和演进问题。不但可以实现多模融合计算、多模融合存储、多模一体化运维,基础引擎的优势也将会乘以N。
在具体场景应用上,张易介绍,以基于位置的服务为例,假设需要查询距离最近且评分超过4分的奶茶店中的前10条好评。这个需求涉及多个方面。首先,需要筛选评分超过4分的奶茶店,这是普通的结构化关系型数据库擅长的处理,即以“评分4分以上”作为过滤条件即可。其次,需要找到距离最近的奶茶店,这是典型的基于位置的查询服务,是空间数据库擅长的处理。另外,需要考虑10条好评,这里的评价一般都是文本,文本内容是否属于好评很难判断,可以基于文本内容提取文本语义做向量检索,从而得出判断。
那么,如何结合这些查询条件,最终选择何种执行路径呢?是使用向量索引还是使用空间索引,还是使用普通TP索引?张易称,OceanBase通过多模引擎和优化器的融合,能够选出最优的执行路径,从而为客户带来更佳的查询结果、查询响应时间和资源消耗。
据了解,OceanBase的多模能力,可使用户无需为不同类型的数据部署不同的数据库,只需使用一个数据库、一个引擎即可。OceanBase原生支持多种数据模型,包括SQL和NoSQL,为用户提供了根据自身需求选择合适数据模型的便利。
大规模部署阶段
“对于我们这样自研的数据库,且又是一个新品牌,最大的挑战就是客户的信任问题,”谈及在推广初期遇到的困难,杨冰记忆犹新,OceanBase团队曾为了争取某国有大型保险公司的项目,与其他厂商“竞赛”了近一个月。
“当时,整个核心系统数据量非常庞大,上千万行老代码需要兼容,短时间内要完成迁移上线,且业务尽可能少改动,在这么短的时间内基本是不可能完成的事情,但我们还是希望能挑战一下硬骨头。”杨冰称,“因为还有其他厂商一起竞赛这个项目,整个竞争架势有点像百米赛跑,为此,我们快速集结了一个7人最强小分队,几乎是大家日夜兼程,开发和测试同步进行,最终用了28天的时间完成上线。这一次的胜出,也充分体现了我们的自研能力、代码掌控能力以及解决问题的能力,通过这样一次战斗,探访北京新质生产力·走出实验室旧瓶难装新酒,分布式数据库攻关传统运维难题也获得了更多的同行业客户信任。”
OceanBase诞生于金融场景,据介绍,截至目前,OceanBase已经累计服务了数百家金融机构,覆盖70%资产规模千亿元以上的银行,在证券、保险、基金行业的Top20资产规模企业中,覆盖率分别为75%、65%、45%。其中大部分涉及核心系统数据库升级,尤其以头部银行、头部保险公司为代表的金融机构开始涉足“无人区”,率先进行核心系统数据库的分布式升级。
以某国有大行为例,国内首个贷记卡核心系统“大机下移”分布式已经运行一年有余,目前已有ECIF、对公网银等几十套系统数据库升级至OceanBase,传统核心也在基于OceanBase进行大机下移和单元化改造。
杨冰向北京商报记者介绍,不同规模金融机构数据库升级需求各不相同,大型金融机构基础设施较好,对TPS、响应时间等各方面的要求较高,另外,大型金融机构需要整体升级的系统较多,迁移的数据量也较大,所以重点关注整套迁移方案的安全性和改造成本。而对于中小型金融机构而言,其首先需要数据库具备分布式能力,且非常关心服务和培训,以确保有足够的服务人员可以保障后续的日常服务。
有分析人士指出,2024年将进入分布式数据库大规模部署阶段,分布式数据库厂商需要持续打磨核心功能、扩大生态建设、做好人才培养、做好金融行业差异化需求适配等。
北京商报记者刘四红
评论