《北京金融科技产业联盟:2023分布式数据库金融关键业务场景应急处理研究报告(55页).pdf》由会员分享,可在线阅读,更多相关《北京金融科技产业联盟:2023分布式数据库金融关键业务场景应急处理研究报告(55页).pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、分布式数据库金融关键业务场景应急处理研究报告北京金融科技产业联盟2023 年 10 月版权声明本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本报告文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。I编制委员会主任聂丽琴编委会成员王志刚李振编写组成员陈亮邓广俊刁现峰杜蓉冯六军高孝鑫郭智慧胡正策黄小慧黄炎黄元霞姜维莹李博文李国良李磊李思李萧萧路新英明玉琢申宇苏德财王登祎王枫王莉莉王嵩阳王栩吴洪辉许高峰徐雪涛叶强林张楠张毅周日明朱飞编审黄本涛张蕾II参编单位:北京金融科技产业联盟秘书处中国光大银行股份有限公司兴业银行股份有限公司华为技术有限公司中兴通讯股
2、份有限公司腾讯云计算(北京)有限责任公司蚂蚁科技集团股份有限公司北京国家金融科技认证中心有限公司飞腾信息技术有限公司北京奥星贝斯科技有限公司北京万里开源软件有限公司成都虚谷伟业科技有限公司上海爱可生信息技术股份有限公司上海热璞网络科技有限公司云南南天电子信息产业股份有限公司III摘要摘要近年来,在金融科技的推动下金融服务和产品不断推陈出新,数据处理呈现出体量巨大、并发量大、高处理性能、类型繁多等特点。银行的业务系统应对新挑战,不断扩容,架构在不同数据库和基础设施之上,变得更为复杂,加大了日常运维的难度和发生故障的风险。虽然单个数据库产品一般具备一定的故障探测和恢复能力,但银行数据库运维人员仍需
3、根据各种异常场景进行应急处理,在发生问题时最大程度缩短恢复时间、减少故障损失。本报告调研了参编单位现有应急处理方案,分析了金融关键业务场景中故障产生的原因,提炼出共性应急处理思路,形成普适的应急处理方案和修复验证指导,为金融机构进行关键业务场景的分布式数据库应急处置提供参考。IV目录目录一、研究背景一、研究背景.1二、应急处理思路1二、应急处理思路.1 1(一)应急预案.1(二)应急准备.5(三)应急演练.6(四)应急处置.7三、关键场景应急处理三、关键场景应急处理.8 8(一)特性分析.8(二)数据库组件故障.10(三)硬件故障.20(四)机房故障.34(五)数据库异常操作.38四、总结与展
4、望四、总结与展望.48481一、研究背景近两年随着国内数据库产业的蓬勃发展,银行中使用的数据库类型逐渐增多,特别是分布式数据库在金融关键业务场景的使用变得越来越普遍。数据库是金融业中金融资产的重要载体。无论哪种数据库,其稳定性、可靠性及可用性都是整个系统平稳运行的关键。虽然现有分布式数据库产品一般具备故障的自动探测、自动恢复能力,但不同分布式数据库的特性和操作方式不相同,银行数据库运维人员仍需根据各种异常场景做好应急处理,在发生问题时最大程度缩短恢复时间、减少故障损失。为了业务连续,运维人员需要在最短时间内判断及处理数据库异常,控制故障不进一步扩大,避免数据库停止服务,保证业务正常开展。其次,
5、一些常见的人为误操作可能会对业务数据、数据库系统的状态及性能会造成较大的影响,运维人员还需对常见误操作进行规范的应急处置,减少对业务及系统带来的负面影响。本课题通过调研参与单位现有应急处理方案,分析金融关键业务场景中故障产生原因,总结统一的应急处理思路,形成普适的应急处理方案和修复验证指导,为金融关键业务场景的分布式数据库应急处置提供参考。二、应急处理思路(一)应急预案分布式数据库在银行、证券、保险等金融机构生产环境运行时,都存在发生故障、停止服务的风险。保障生产系统2数据安全、确保服务稳定是金融机构科技部门最重要的工作之一。为了快速响应故障,保障分布式数据库生产系统数据安全、服务稳定,需要提
6、前分析可能产生风险的原因,并事先制定应急处置方案。分布式数据库系统技术栈包括分布式数据库组件,操作系统、服务器及服务器运行环境,服务器运行环境又包括机房环境和地域环境。分布式数据库生产系统主要面临的风险如下:1.系统故障1.系统故障指支撑分布式数据库运行的系统(或子系统)发生故障、停止服务。系统栈每一层中的系统都存在发生故障的概率。分布式数据库组件可能在运行过程中出现 bug 导致停止服务;操作系统在运行过程中可能会出现故障;服务器硬盘可能出现坏道,无法读取数据,内存可能部分失效,读取出错误内容等;机房环境可能出现供电故障,空调故障等情况;地区环境可能出现地震、台风等影响数据中心机房运行的灾难