1、腾讯云?DLC?:?持百万级实时Upsert的企业级数据湖计算实践全解析主讲人:陈万东产品简介数据湖计算DLC的介绍、定位与优势01数据技术发展:业务倒逼技术不断发展传统数据库数据仓库数据湖现代数据湖仓关系法和关系数据理论建,数据库技术进关系型数据库时代。特征:特征:以向事务交易场景为主,数据分析仅作为附带提供的场景,扩展性差,很难持规模数据分析,性能也法满需求。随着数据分析需求的增,数据仓库应运。最从初的体机形态,逐步发展到基于x86的MPP架构。特征:特征:相对封闭,约束较多,但在要求极致的性能的场景下有较多优化硬件资源弹性;多种数据类型;数据挖掘等都临新的挑战。基于?Hadoop?态建设
2、数据湖,使?HDFS?作为数据存储,使MapReduce、Hive等引擎。特征:特征:开放由,更好地保留原始数据,以挖掘数据价值。开源组件众多,使成本较可能导致数据沼泽云原体化湖仓,兼具数据仓库和数据湖的优势,全覆盖数据分析场景。特征:特征:云原,极致弹性、存算分离实时性强简单易扩展性强交互式分析基础可规范标准开放由优势融合数据湖计算DLC?产品概述4数据湖计算?DLC(Data?Lake?Compute)是基于Spark、Presto、Iceberg构建的云原Serverless湖仓分析服务,具备存算分离、资源弹性、开箱即、托管运维、研内核增强等优势特性,灵活覆盖离线/近实时分析、交互式查询
3、、跨源联邦分析、数据科学等数据场景,助企业敏捷构建站式的数据分析平台。产品优势产品定位新代Lake?House形态先进Lakehouse架构,全覆盖湖场景(模型数据预处理、数据科学)和仓场景(离线/近实时分析、交互式分析),满企业数据各类分析需求。实时极速分析研数据优化服务,持百万级QPS实时湖,端到端分钟级时延。研加速层,三级缓存结合适应Shuffle,兼顾稳定性的同时幅提升查询效率,提供企业级数据分析服务。极致性价为降本设计的云原存算分离架构,计算和存储均按需使,持按量弹性付费,在兼顾性能的同时综合降本50%+。开箱即云原Serverless产品形态,键部署,即买即,免底层运维。统接点、数
4、据智能优化等产品能,需维护复杂组件。DLC数据湖计算湖存储WeData数据开发治理平台DLC+行业应用实时分析BI报表交互式分析数据预处理结构化半结构化非结构化csvJSONXML离线分析联邦分析数据科学特征工程数据湖计算DLC产品架构湖仓计算层仓场景BI报表|离线分析|近实时分析湖场景数据科学|数据预处理|交互式分析|联邦分析自研增强版自研增强版Serverless Presto自研增强版自研增强版Serverless Spark统一接入点湖存储层应场景加速层缓存加速缓存加速local cache|result cache|fragment cache存储格式存储格式 IcebergACID
5、事务支持|Schema演化|时间旅行|实时Upsert增量写入数据优化数据优化 Smart Optimizer写入优化|索引推荐|生命周期管理稳定保障稳定保障Spark 自适应shuffle对象存储COSDLC托管湖存储云服务层弹性资源管理权限管理运维管理数据湖计算DLC应场景联邦查询离线/近实时数仓分析交互式数据湖探索“企业进海量数据分析时,通常临性能、稳定性、时效性、复杂性等的挑战。”离线实时数据增量湖分布式计算引擎、查询引擎、湖存储引擎适应shuffle、多级缓存、分区、索引推荐等内核增强特性提供极速、稳定、经济、开箱即的PB级数据离线实时分析服务“灵活助地探索数据,随时满个性化查询需求
6、。”屏化操作,使标准SQL即可各类业务指标灵活的交互式查询和数据探索领先的多级缓存加速技术排队并发模型提升查询效率“多源异构数据联邦分析,打破数据孤岛。”分散在不同系统中的数据,统查询统元数据管理,个数据视图极速联邦查询引擎数据科学“数据是AI的基础,数据湖则是最适合AI场景数据预处理的数据平台。”容器化部署,按需弹性,随随Serverless免运维,专家全程持持python作业提供内置机器学习包和定义镜像案例:百万级/秒?UPSERT实践数据湖计算DLC的介绍、定位与优势02客户主营融保险,使腾讯云DLC搭建近实时数仓,持BI系统、画像系统、营销系统,应于理赔、财务营销分析、风控、投放分析等