1、存算分离StarRocks在京东物流的落地实践康琪京东物流高级技术专家/StarRocks&Apache Flink Contributor0102030405京东物流一站式自助分析场景存算一体向存算分离演进性能表现与降本增效稳定性保障与调优实践未来计划01京东物流一站式自助分析场景1-1.UData:京东物流一站式自助分析平台 以StarRocks高性能实时摄入、联邦查询、湖仓一体能力为基础,覆盖10w+一线业务人员,面向物流全链路数据分析场景的一站式DAAS解决方案1-2.UData产品架构数据接入联邦查询数据管理数据分析DBMySQLOracleOLAPClickHouseElastic
2、searchAPIJSFHTTPHMSHiveHudi本地Excel数据管理(数据接入)离线指标离线表数据源管理数据地图(找数能力)指标表数据源业务视角检索数据血缘分析数据信息查看个人权限用户组权限行级权限点选式在线Excel选择数据可视化StarRocks数据准备SQL提数条件过滤/筛选分组汇总左右/上下合并排序字段设置选择数据绑定数据搭建看板发布看板邮件京ME仪表板权限体系实时表实时指标列级权限协同能力大屏云文档FlinkJDQJMQ1-3.StarRocks运用规模30+集群总数量600+节点总数量300+内表总数量800+RPS访问量峰值500+GBPS数据流量峰值02存算一体向存算分
3、离演进2-1.为什么需要存算分离 海量数据近实时写入,长周期留存与查询 降低存储成本,保证用户体验 成本、运维压力大,资源用量难以预估 云原生部署,弹性扩缩容2-2.部署存算分离集群StarRocks K8s OperatorFE StatefulSetCN StatefulSetFE Pod 1FE Pod 2FE Pod 3CN Pod 1CN Pod 2CN Pod 3HPACN Pod 4FE ServiceCN ServiceJDCloud JDOS AZ 依托京东云JDOS K8s部署,双可用区容灾,Proxy灵活切量 配备万兆网卡及SSD的物理机,保证网络和缓存I/O性能 预调优
4、的FE/CN Specs,开箱即可用SR ProxyClient2-3.表、存储卷与OSS Bucket映射 存算分离StarRocks可完美兼容京东云OSS大表独享Bucket、小表共享Bucket,规避带宽和IOPS限制新增元数据表维护Table、存储卷和Bucket映射关系Table 1OSS Bucket 1Storage Volume 1OSS Bucket 2Storage Volume 2Table 2-1Table 2-3Table 2-22-4.实时写入存算分离表 通过自研低代码平台,15分钟配置Flink Job实现MQ SR Stream LoadFlink SR Cat
5、alog自动获取Schema,反推MQ消息解析自动生成流式INSERT任务逻辑,支持配置Transform&Filter为存算分离表Sink自动配置更加宽松的攒批和容错参数,保证数据新鲜度5min以内StarRocks CatalogCREATE TABLE sink_sr_tbl LIKE sr_catalog.sr_db.sr_tblWITH(connector=starrocks,load-url=.,sink.buffer-flush.max-bytes=936870912,sink.buffer-flush.max-rows=3000000,sink.buffer-flush.int
6、erval-ms=200000,sink.buffer-flush.enqueue-timeout-ms=600000)CREATE TABLE src_jdq_tblLIKE sr_catalog.sr_db.sr_tblWITH(connector=jdq,client-id=.)Job Config CenterINSERT INTO sink_sr_tbl SELECT.FROM src_jdq_tblWHERE.AND.03性能表现与降本增效3-1.写入吞吐量 单张大表日均新增行数十亿量级,日均更新次数百