千卡级分布式集群上的视觉多模态大模型落地实践-王兆雄.pdf

编号:711802 PDF 32页 5.03MB 下载积分:VIP专享
下载报告请您先登录!

千卡级分布式集群上的视觉多模态大模型落地实践-王兆雄.pdf

1、演讲人:王兆雄01020304多模态大模型的训练工程挑战AI Infra 四大优化方向训练工程案例:LLaVA&DiTAI Infra 未来展望01文本视频图像音频更多模态LMM计算资源压力存储与加载瓶颈数据吞吐限制通信与并行难点视觉多模态大模型训练路径训练链路中的典型瓶颈02多模态训练不是“卡”先堵,而是“数”先断流。加载慢、预处理慢、跨集群 IO 慢,是吞吐变慢的幕后推手典型数据处理路径与瓶颈点数据存储与准备阶段优化训练阶段优化数据流通顺了,训练才真正动起来。算力浪费点(典型计算瓶颈)优化方向(我们可以怎么做)算力利用率低,不是卡的问题,而是模型结构与调度未优化好视觉多模态模型计算链路结构

2、调顺了,每张卡都能跑得值。多卡训练不是“算”太慢,而是“等”太久通信链路瓶颈示意图通信瓶颈点(导致 GPU 空等&吞吐下降)优化方向(我们可以怎么做)通信链路通了,训练才能跑得顺。多模态训练不是“快”就够,更要“稳”得住优化策略覆盖关键环节稳定性挑战与优化03工程挑战优化目标Device 0 1 1 2 2 3 3 4 415 526 637 748 856789 9 1010 11 11 12 12Device 11 1 2 2 3 3 4 4125 536 647 758 867899 10 10 11 11 12 129Device 21 1 2 2 3 3 4 41235 546 65

3、7 768 8789910 10 11 11 12 129Device 31 112 223 334 445 556 667 778 8899910 1010Device 0 1812341526374856789169101112Device 1123 412536475867891011129Device 212 3412354657687891011129Device 3112233445566778899101004落地路径算法算力数据 训练工程做稳,模型才能走远 打通训练链路,才能跑通多模态闭环 算法迭代靠创新,更靠工程支撑探索 AI 应用边界Explore the limitsof AI applications

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(千卡级分布式集群上的视觉多模态大模型落地实践-王兆雄.pdf)为本站 (探险者) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠