王晓平-AI时代的数据新基建:下一代多模态数据湖探索与实践.pdf

编号:991592 PDF 30页 6.21MB 下载积分:VIP专享
下载报告请您先登录!

王晓平-AI时代的数据新基建:下一代多模态数据湖探索与实践.pdf

1、王晓平字节-火山引擎数据平台产品总监AI时代的数据新基建下一代多模态数据湖探索与实践1Agent时代新挑战2多模态数据湖方案3关键能力解读4客户案例5未来规划展望1 Agentgent时代新挑战时代新挑战模型决定下限,数据决定上限通用Agent专用知识实时上下文用户行为反馈智能Agent能理解、能决策能行动的Agent聊天工具 IDC预测,2029年中国数据生成量 51ZB增长到136 ZB,其中非结构化占比80%以上27.936.748.964.084.5111.413.515.117.219.221.824.80.030.060.090.0120.0150.0202420252026202

2、720282029企业数据消费者 模型训练数据中75%来自非结构化数据;非结构化数据处理速度提升10倍以上Agent时代,数据从单模到多模非结构化缺“优雅格式”传统数据湖表格式无法优雅的组织非结构化数据通常需要元数据和实际数据分裂存储,性能和一致性问题突出数据存储引擎难适配多模态需求传统Spark/Flink对GPU支持不足架构复杂,运维集群成本高,与算法人员“轻量、灵活”使用习惯不匹配数据处理多模态数据缺乏有效管理手段缺乏统一管理平台,结构化数据的管理平台已经非常成熟非结构化的统一管理目前是短板,数据碎片化散落数据管理AI数据的处理效率低代码改造成本高复杂数据处理环节,从编写代码、调度、管理

3、、模型推理、再给到数据需求方,代码开发效率低存量python代码分布式改造成本高处理工具Agent时代数据基建新挑战2 多模态数据湖解决方案多模态数据湖解决方案湖存储AI 算子PDF等文档解析/文本清洗/切片图片向量化/OCR/重采样音频人声分离/切分/转文字湖处理Processing Agent:多模态数据处理智能体处理&推理一体化豆包家族模型湖管理面向Agent的数据管理多模湖格式存储原始文件存储多模态处理引擎多模态模型推理视频关键帧抽取/切分/音频提取算子广场内置100+多模湖格式数据集管理Catalog管理多模态版本管理数据探查数据共享湖表服务HMS自动合并自动清理索引管理冷热流动处理

4、&推理一体化Pipeline流式读取分布式并行处理在线/离线推理异构存储写入多模态数据湖解决方案多模态数据湖解决方案3 关键能力解读关键能力解读大宽列多模态数据单值比较大,因此存储结构能够高效的存储大列混合存储支持不同大小的数据类型混合存储,比如图像列、标签列、向量列随机点查多模态训练的时候,全局shuffle已经无法在内存中完成,因此必须随机点查结构变更多模态的业务中,经常会用模型对数据集打标,会不定期加列或者更新列多模态场景对湖存储的新诉求2024H1 源于AI客户多模态的诉求,关注到Lance 内部POC,探索选型2024H2 推进火山生态EMR、TOS等产品的对接 与开源社区合作共建

5、国内客户布道和推广2025H1 全面产品化、商业化获客 Lance作为AI数据湖的数据集的主推技术 集团内部豆包训练数据作为多模态湖格式 与社区达成共同建设中文社区(公众号、社区群)Now 国内最早商业化GA发布 与火山方舟、机器学习平台、Bytehouse等产品全面对接 多行业商业化客户,最大客户Lance数据集数十PB多模态数据湖Lance产品进程多模态数据存储LanceLanceTableFormatLanceFileFormatSDKSparkRayDaftLanceDB对象存储TOS文件存储HDFSLance是为AI场景设计的现代列式表格式+文件格式,原生支持多模态数据存储,同时提供

6、高性能的随机访问、版本控制能力和云原生适配 多模存储:支持多模数据的原生存储和访问模式,如可存储图像张量 随机访问:专为低延迟随机访问而设计的列式格式,并多种辅助索引 数据变更:无需重写整个数据集即可添加、删除或更新列,极致性能 高效元数据:元数据与数据存储在一起,而非多元数据层,以减少开销 版本控制:自动管理数据版本,并使用内置的零拷贝逻辑减少冗余 混合检索:支持OLAP、全文检索、向量检索,可支撑向量数据湖场景 透明压缩:列式存储,支持自动压缩和解压缩,大幅减少存储成本Lance是什么Lance核心能力多模态场景对湖处理的挑战多模数据GPU处理多模态数据处理不再是纯粹的CPU任务,需要协同

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(王晓平-AI时代的数据新基建:下一代多模态数据湖探索与实践.pdf)为本站 (可不可以) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠