当前位置:首页 > 报告详情

湖仓一体方案在金融科技行业的实践-大数据平台技术论坛(19页).pdf

上传人: 云闲 编号:84486 2021-01-01 19页 1.36MB

1、湖仓一体方案在金融科技行业的实践程俊杰上海数禾信息科技大数据平台负责人Contents目录01公司业务02湖仓一体架构的演进04湖仓一体的未来规划03基于 MaxCompute+Data Lake Formation+E-MapReduce的湖仓一体架构公司业务01公司业务模式服务数据让人人享有金融服务最优解做陪伴一生的智能金融家2015年成立,C轮,主要产品“还呗”、“拿铁智投”湖仓一体架构的演进022021.8-至今2018.12-2020.82015-2018.11湖仓一体架构的演进CDH+EMR混合云OSS+EMR生态的云原生数据湖基于MC+DLF+EMR的湖仓一体架构云上自建CDH集

2、群2020.9-2021.8云上自建CDH集群在数禾的应用Sqoop报表系统Jupyter机器学习RDS业务库统一用数交互式查询应用层传输层数据源RDS业务库对象存储日志数据KafkaFlume存储层HDFS计算层HiveSparkTEZ云上自建CDH集群的瓶颈自建CDH集群扩展性差,扩容操作难度高且有一定操作风险CDH组件的压力日益变大昼夜资源使用不均,导致资源无法合理使用CDH集群使用本地SSD磁盘,存储费用高随着公司业务的飞速发展,业务所用计算资源消耗越来越大CDH+EMR混合云在数禾的应用对象存储HDFS存储EMR Hive元数据CDH Hive元数据HiveSparkTezEMR报表

3、系统Jupyter机器学习RDS业务库统计用数交互式查询应用EMRHiveEMRHiveEMR Chive(兼容CDH Hive)元数据存储EMR Chive(兼容CDH Hive)日志数据Kafka业务数据RDS第三方存储数据源CDHCDH+EMR混合云的瓶颈元数据管理不完全统一用户权限管理不统一部门计算资源不能有效隔离HDFS和对象存储上的数据有冗余员工日益增多组织架构日趋复杂,集群架构不能满足需求OSS+EMR生态的云原生数据湖在数禾的应用业务数据RDS业务VPC日志数据Kafka资信数据OSS第三方存储数据源数据湖存储OSSEMR数据同步集群核心数仓集群业务集群JindoFS Cach

4、e模式JindoFS Cache模式JindoFS Cache模式标签集群JindoFS Cache模式Airflow Master统一LDAP用户管理统一Ranger权限管理GatewayAirflow WorkerGatewayAirflow WorkerGatewayAirflow WorkerGatewayAirflow Worker标签系统应用Jupyter机器学习报表系统统一用数交互式查询应用大数据VPCRAM访问控制统一Hive元数据03基于 MaxCompute+Data Lake Formation+E-MapReduce的湖仓一体架构OSS+EMR生态云原生数据湖的瓶颈异构

5、计算引擎元数据管理不统一异构计算引擎存储管理不统一湖仓计算不能自由流动异构计算引擎权限管理不统一公司引入MaxCompute作为计算引擎的数据中台产品EMR(数据湖)智能数据构建与管理数据中台业务RDS数据湖存储OSS数据同步EMR即席查询EMR机器学习EMR统一用数交互式查询Jupyter机器学习业务OSSMaxCompute(数据仓库)ODS贴源层CDM数仓层OneData建模ADS应用层VDM沙箱层计算流动元数据统一基于MaxCompute+DLF+EMR的湖仓一体架构DLF数据湖构建元数据管理数据血缘管理数据权限管理智能CacheJindoFS+MC数据湖加速冷热分层本地缓存加速元数据

6、管理+湖加速实现MaxCompute+DLF+EMR架构面临的挑战METASTORE_DLF_FAILUREr/w hms first,write dlf allow failureMETASTORE_DLF_SUCCESSr/w hms first,write dlf must successDLF_ONLYr/w dlf onlyMETASTORE _ONLYr/w hms onlyHive自动化单元测试全覆盖25个EMR集群按重要性分批灰度升级生产全部EMR集群的Met

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
湖仓一体方案在金融科技的实践中,由上海数禾信息科技大数据平台负责人程俊杰阐述。公司业务方面,数禾成立于2015年,至C轮,主要产品有“还呗”、“拿铁智投”。湖仓一体架构经历了从CDH+EMR混合云到基于MaxCompute+Data Lake Formation+E-MapReduce的演变。早期架构面临扩展性差、资源使用不均等问题,而现行的湖仓一体架构通过MaxCompute、DLF和EMR实现了统一元数据管理、存储管理和权限管理,以及计算资源的自由流动。未来规划包括跨平台高速网络、数据仓库的MaxCompute与OSS对象存储的整合,以及统一数据流动和元数据管理。这一架构带来了诸多益处,如解决了异构计算引擎的管理问题,实现了数据湖加速,并通过灰度升级确保了平稳过渡。
湖仓一体如何提升金融服务效率? 湖仓一体架构的未来发展趋势是? 数禾信息科技如何实现数据湖的高效管理?
客服
商务合作
小程序
服务号
折叠