1、AI与数据融合的基础设施发展展望陈文光 蚂蚁技术研究院/清华大学大数据:数据量,数据生成的速度和多模态Volume of data/information created,captured,copied,and consumed worldwide from 2010 to 2025Volume of data/information created,captured,copied,and consumed worldwide from 2010 to 2025 Statista 2021 https:/ zettabytes)物联网、边缘设备和用户行为产生大量数据数据量(Volume)和数据
2、生成速度(Velocity)多模态数据(Variety)图片,文档,图,时序,交易AppsDatabase(MySQL)Queue(Kafka)RealTime ETL(Flink,SPARK)OLTP(Hbase,KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts典型数据处理链路实时链路离线链路https:/ 典型数据+AI处理链路AppsDatabase(MySQL)Queue(Kafka)RealTime ETL(Flink,SPARK)OLTP(Hbase,KV,ES)ETL(Flink,Spar
3、k+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts实时链路离线链路Online Model Update(PyTorch,TF)Model Serving(PyTorch,TF)Batch Training/Test(PyTorch,TF)主要挑战 123在线离线一致性基于JVM的数据处理系统的性能问题大数据处理与AI融合问题https:/ ETL(Flink,SPARK)OLTP(Hbase,KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts实时链路离线
4、链路Online Model Update(PyTorch,TF)Model Serving(PyTorch,TF)Batch Training/Test(PyTorch,TF)解决方案 以蚂蚁集团图计算为例ApplicationTuGraph DBMessage QueueTuGraphDataflowTuGraphDataflowHistorical PlaybackDecision EngineStreamingWriteRule based ServingDataServingDecision MakingTuGraph DB:分布式图数据库,支持自定义图查询语言GQueryTuGra
5、ph Dataflow:流图计算系统,支持Gremlin基于图的风控解决方案(全图风控)架构 1在线近线数据不一致模型效果不一致解决方案 以蚂蚁集团图计算为例TuGraph DB:分布式图数据库,支持国际标准图查询语言ISO-GQLTuGraph Dataflow:流图计算系统,支持国际标准图查询语言ISO-GQL基于图的风控解决方案(全图风控)架构 2,支持探索-仿真-上线的一致性ApplicationTuGraph DBMessage QueueTuGraphDataflowTuGraphDataflowHistorical PlaybackDecision EngineStreaming
6、WriteRule based ServingDataServingDecision Making保证在线近线数据一致以在线数据库内容为准,同步到近线系统在线近线系统使用同样的查询语言避免不同语言语义的不一致性很多细节,比如Nodelimit问题2.基于JVM的数据处理系统的性能问题Spark处理性能较差C+手写Word Count与Spark的Word Count相比,单机加速比12倍Java运行时:Java运行时带来了较高的数据对象转换开销。例如,序列化/反序列化 Spark执行策略:Spark每次仅处理一个元素的执行策略带来了较高的函数调用开销单机单机Spark单线程单线程C+多线程多线