参赛单位:上海爱可生信息技术股份有限公司
案例名称:某大型国有银行OLTP分布式数据库开放平台建设
案例简介:
某大型国有银行已经拥有优质的客户基础、多元的业务结构、强劲的创新能力和市场竞争力,可是数据库还是采用传统集中式架构,无法满足日益增长的业务需求。上海爱可生通过云树Shard和云树DMP产品帮助客户构建了分布式数据库开放平台,使业务系统在面对大数据量、高并发、低延时等场景下更具备灵活性、可拓展性,保障了业务连续性,实现了同城双活及灾备自动切换能力。
通过本项目实现了如下的科技创新:
实现了完全自主可控的分布式数据库能力,整个集群的性能随着节点的扩容可准线性增长;
建设一个银行业标准的分布式数据库开放平台,提供多种基线能力,满足不同的业务需求;
一个平台可支撑3000+数据库实例,实现了集约化管理,大大提升了运维管理效率;
完成了传统集中式架构的蜕变,基于廉价的标准基础设施,同样构建稳定可靠的数据库能力。
项目背景:
目前此大型国有银行,整体核心的系统都是大机+DB2这样的传统架构;针对现在的互联网金融业务快速扩张的需求,传统的架构面临着比较大的挑战,主要集中在处理能力、运行的风险、快速交付、成本控制四个方面。
在此情况下进行IT架构转型,整体的诉求是优化应用架构、数据架构、技术架构,建立灵活开放、高效协同、安全稳定的IT架构体系,强化对业务快速创新发展的科技支撑。
创新技术/模式应用:
上海爱可生建设的OLTP分布式数据库开放平台在客户方大规模的使用,技术创新也得到了应用的验证:
平台的基础研究,需要验证功能、新特性和配置基线,数据备份恢复,并结合特性来设计应用的高可用,提供开发的技术规范;包括应用开发规范,性能能力评估,上线设备,容量大小,并对Oracle等传统架构给予指引和帮助,代码检查工具等。
在运维方面提供各种安装部署的便利化,实现一键式安装、版本升级、参数配置,统一监控系统进行对接,制定多种指标和参数,监控告警里的事件等级,分各种等级,都需要灵活定制,建立基线告警,建立应急流程;故障的分析,完善日志记录、采集和分析,建立故障分析规范,自动化巡检和评分报告,对实例状态进行健康评分。
建立自动化、高可用的决策系统,基于数据库日志自动数据补全,保障数据的一致性,实现了同城RPO=0,RTO=分钟级目标,RPO为0的切换,问题可监控,实现了人工或自动的一键式切换。
引入了开源分布式数据库中间件,通过它来支持垂直数据分片、水平数据分片、混合分片等场景,还支持简单的跨库汇集查询提供类似集中库的能力,让业务开发场景简化,给应用提供更多选择,大大降低应用开发的复杂程度。
解决行业哪些痛点:
金融行业内的IT创新技术推动较大,技术较前沿化,但是重要架构还是保守的,很多业务系统后端的数据库架构采用集中式的架构,如小型机、高端的集中式SAN存储、光纤网络及FC交换机,不仅还需要高额的技术支持服务,而且技术一直无法突破和创新,这样的集中式架构已经使用超过20年,它的优势就是稳定可靠,但是随着互联网的发展,很多业务需求灵活多变,行业竞争也更加激烈,对IT技术尤其是数据库技术提出了更高的要求,如弹性扩容、水平扩展、大数据量、高并发交易等,应用根据业务要求进行敏捷开发、快速迭代,数据库能根据应用的需求而进行快速服务和响应,高频次的发版、业务上线,爆发式增长的弹性伸缩能力需求越来越明显。
微服务架构影响力越来越深,传统的重量级数据库无法和微服务架构搭配,需要轻量级数据库服务能力配合,应用的垂直拆分,大数据量的分布式存储能力才是未来数据库的发展方向,通过本次OLTP分布式数据库开放平台的项目建设,解决了行业如下的痛点:
处理能力:分布式数据库开放平台,从单一扩展到动态水平扩展及高并发处理能力;
运行风险:从业务连续性无法保障到7×24小时业务连续性保障;
快速交付:从软件的开发和产品交付周期比较长到产品快速开发迭代;
成本控制:从商业产品高运营成本到开源低成本,降低对商业产品依赖,提升议价能力;
运维能力:从局部到统一运维管理,提升数据库的运维自动化、智能化;
架构转型:从传统集中式架构到分布式微服务架构,满足业务灵活多变的需求,让业务产品互联网化,数据库能力扁平化。
执行过程及风险控制:
整个项目创新历程,从2017年开始IT架构转型,真正的进展是从2018年7月到2019年5月。
项目历程大概可以分三个阶段:
第一阶段:原型的研发和探索
2017年初到2018年初的过程,结合人民银行对于个人账户的管理要求,实行一类二类三类账户;结合工作要求,把个人账户从主机下移到开放平台,基于开放平台的高性价比、可扩展进行了很多的探索,爱可生帮助用户进行众多技术验证。验证了技术可行性后,爱可生提出了分布式数据库开放平台转型的规划,这个规划确定了要建设基于开源数据库的解决方案。
第二阶段:基础研究和试点
爱可生通过云树Shard和云树DMP产品帮助用户构建分布式数据库开放平台初步能力的建设,包括基础研究和应用的试点。原型于2018年7月后上线,整个技术体系都等到了验证。
第三阶段:转型实施及推广
2018年10月进行大规模的实施和推广,过程中全部基于开源数据库,逐步建立企业级的数据库服务能力,包括引入分布式数据库中间件,在高可用、运维能力、资源使用率的提升,数据库云化及自主服务的建设等。
同时项目实施中也遇到不少风险点,包括项目组成员的频繁变更、需求的不断变更、应用适配中的兼容性问题、大规模集群统一纳管的性能问题。上海爱可生针对这些问题,建立了完善的项目风险管理制度,包括风险识别、风险估计、风险管理策略、风险解决和风险监控。具体策略如下:
成立专门的PMO小组;
针对客户需求进行合理性判断,保证方案的可落地性;
业务逻辑和应用设计逻辑,将兼容性问题尽量通过应用代码微调整进行解决,分布式数据库中间件定制化开发能力中心功能适配更多的业务场景;
超过1000+数据库实例的集群的管理中元数据的更新和同步带来了性能问题,将数据库实例划分为多区域,同时优化元数据结构信息,对元数据的存储集群架构优化,让管理平台可以支持3000+数据库实例的统一管理。
效果评估:
当前有120多个应用,2000多个服务器节点,超过2500个数据库节点。应用涉及多个核心业务,包括个人账户、对公账户、基金以及很多A类、B类的应用,大多都是主机上迁移过来的。部分应用是从传统架构迁移到分布式数据库,应用层因此需要重构。
通过分布式数据库开放平台支持的核心交易达到日均7亿的交易量,经历了2018年的双十一和春节的高峰期的1.5万的TPS。目前架构通过横向扩展可以达到几万的TPS。通过良好的架构设计,可以满足“两地三中心”的架构要求,做到同城RPO=0,RTO<60s。
通过架构转型,客户方在自主能力方面,基于分布式中间件构成了所谓联机交易的数据库,这样能应对一些不是很复杂的场景,通过良好设计的分库分表方案就可以满足需求。
在成本方面,客户方在主机上的成本投入明显下降。业务交易量每年以20%的速度增长,但是主机并没有进行扩容,投入逐年在降低。商业产品的数据库的使用不仅实现零增长,还有所下降。从整个经费上来说,有比较大的降幅。
责任编辑:王超
免责声明:
中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。