郑志升-基于Ray的AI工程化实践-大模型端到端的训推链路优化.pdf

上传人： bu****ng

编号：1188845

2026-03-31

PDF 45页 3.45MB

《郑志升-基于Ray的AI工程化实践-大模型端到端的训推链路优化.pdf》由会员分享，可在线阅读，更多相关《郑志升-基于Ray的AI工程化实践-大模型端到端的训推链路优化.pdf（45页珍藏版）》请在三个皮匠报告上搜索。

1、基于Ray的AI程化实践模型端到端的训推链路优化郑志升 B站-基础架构部技术专家录01020304场景与痛点概况Ray+LLM的分布式流批推理管道Ray+Verl的强化学习训练优化总结与展望01场景与痛点概况Case1-应具类数据处理字幕提取，CPU密集型 LLM和多模态推理，涉及GPU计算多业务诉求部分流程致，字幕提取、抽帧、抽段差异在于业务的抽取逻辑，分析逻辑不致业务驱动右侧为光段链路，典型结合AI能其他如视频的翻译、字驱动视频创作具等对于业务研发，需要搭建复杂计算程来完成全链路Case2-内容理解类时效性线上投稿产视频稿件流分钟级计算，产出特征和模型推理结果规模回刷新增

2、不同特征或模型迭代，历史需回溯复杂Pipeline 计算量，多步骤特征提取和标签成偏多模态数据中台类服务，提供视频多维特征Case3-特征融合类传统搜推线上多阶段，融合多模态特征多模数据处理相关性特征提取，ASR/OCR提取LLM蒸馏模型微调LLM模型，进步蒸馏Bert模型解决语义召回，双塔及精排相关性等环节Case4-强化训练多训练四模型，既有推理，也有训练 Policy/Rollout/Reward/Reference灵活多样训练法 PPO、GRPO、DAPO、Agentic Tool程效率与成本 RL训练成本，如何优化全链路MFU多模态-程痛点问题剖析视图1量的业务，微服务资

3、源碎化，难以规则和复缺乏灵活弹性，法更好的按需供给GPU计算效率低消费卡/性能卡/显存卡，使标准资源成本效率2模型的应结合模型时代的到来，M/LLM标配缺乏模型微调到应推理的程标准多模态数据计算共性重复建设，如切、抽帧、OCR、ASR等烟冲式架构3多Pipeline视频-分/抽帧-MLLM推理异构计算混合CPU+GPU各类混合GPU资源，如H20/A10/N910B复杂编排能4天/时级，离线计算规模数据回溯模型调研与训练分钟/秒/级，近实时计算视频稿件的内容理解实时订阅时效性诉求引Ray计算原语 Actor、Task 动态任务图计算模型细粒度并+异构计算（函数级）灵活弹性云原，提供多层次的

4、资源弹性AI态丰富 Core底座C+，上层丰富Python库Ray的架构系统层 Distribute Scheduler Distribute Object Store Global Controller Service应层 Driver，户程序，Job执进程 Actor，对应class类，有状态动器进程 Worker：对应method，状态task执载体Ray的态优势DAG计算 Core之上，官提供Data组件 Daft基于Ray的分布式多模态计算引擎LLM结合官Serve，内置LLM多种分布式部署模型训练当下热的RL，开源OpenRLHF和VeRL02Ray+LLM分布式流批推理管道R

5、ay Data-架构Design DAG调度带反压机制丰富Source/Sink态弹性机制+细腻度资源调配融LLM LLM Operator，持主流模型对接推理态，持vLLM、SGLang存在优劣解决离线计算链路，但法满时效场景Data-流计算数据流调度离线式统抽象为Stream Stream分为UnBounded和Bounded 引End Flag于控制数据流的结束标志Backlog机制基于下游Queue的数据积压做反压调控低峰数据的IDLE超时下发机制，避免空等回调通知完成数据批量回调通知户，业务做幂等Data-Source/SinkKafka 实时秒级场景，流式读写消息

6、队列Iceberg 近实时场景，流和批打通数据孤岛上游的Ray流作业按Snapshot增量写下游批和流作业消费不同Snapshot Between多场景复回刷、离线推理、离线训练、近实时（分钟级）案例/特征程-流批管道现状痛点 CPU切/Spark，GPU推理/k8s GPU利率低，链路断层时效不DAG定义业务定义计算流程抽象每个Stage的算逻辑对于特征场景，实时离线代码共效果优劣吞吐提升4倍，GPU均利率75%+需幂等保障恢复，否则回刷失败从头计算Data-引CheckpointDAG增强标记CheckpointID 虚拟Barrier记录每个环节进度CheckpointM

郑志升-基于Ray的AI工程化实践-大模型端到端的训推链路优化.pdf

相关报告