《郑志升-基于Ray的AI工程化实践-大模型端到端的训推链路优化.pdf》由会员分享,可在线阅读,更多相关《郑志升-基于Ray的AI工程化实践-大模型端到端的训推链路优化.pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、基于Ray的AI程化实践模型端到端的训推链路优化郑志升 B站-基础架构部技术专家录01020304场景与痛点概况Ray+LLM的分布式流批推理管道Ray+Verl的强化学习训练优化总结与展望01场景与痛点概况Case1-应具类数据处理 字幕提取,CPU密集型 LLM和多模态推理,涉及GPU计算多业务诉求 部分流程致,字幕提取、抽帧、抽段 差异在于业务的抽取逻辑,分析逻辑不致业务驱动 右侧为光段链路,典型结合AI能 其他如视频的翻译、字驱动视频创作具等 对于业务研发,需要搭建复杂计算程来完成全链路Case2-内容理解类时效性 线上投稿产视频稿件流 分钟级计算,产出特征和模型推理结果规模回刷 新增
2、不同特征或模型迭代,历史需回溯复杂Pipeline 计算量,多步骤特征提取和标签成 偏多模态数据中台类服务,提供视频多维特征Case3-特征融合类传统搜推 线上多阶段,融合多模态特征多模数据处理 相关性特征提取,ASR/OCR提取LLM蒸馏模型 微调LLM模型,进步蒸馏Bert模型 解决语义召回,双塔及精排相关性等环节Case4-强化训练多训练 四模型,既有推理,也有训练 Policy/Rollout/Reward/Reference灵活多样训练法 PPO、GRPO、DAPO、Agentic Tool程效率与成本 RL训练成本,如何优化全链路MFU多模态-程痛点问题剖析视图1量的业务,微服务资
3、源碎化,难以规则和复缺乏灵活弹性,法更好的按需供给GPU计算效率低消费卡/性能卡/显存卡,使标准资源成本效率2模型的应结合模型时代的到来,M/LLM标配缺乏模型微调到应推理的程标准多模态数据计算共性重复建设,如切、抽帧、OCR、ASR等烟冲式架构3多Pipeline视频-分/抽帧-MLLM推理异构计算混合CPU+GPU各类混合GPU资源,如H20/A10/N910B复杂编排能4天/时级,离线计算规模数据回溯模型调研与训练分钟/秒/级,近实时计算视频稿件的内容理解实时订阅时效性诉求引Ray计算原语 Actor、Task 动态任务图计算模型 细粒度并+异构计算(函数级)灵活弹性 云原,提供多层次的
4、资源弹性AI态丰富 Core底座C+,上层丰富Python库Ray的架构系统层 Distribute Scheduler Distribute Object Store Global Controller Service应层 Driver,户程序,Job执进程 Actor,对应class类,有状态动器进程 Worker:对应method,状态task执载体Ray的态优势DAG计算 Core之上,官提供Data组件 Daft基于Ray的分布式多模态计算引擎LLM结合 官Serve,内置LLM多种分布式部署模型训练 当下热的RL,开源OpenRLHF和VeRL02Ray+LLM分布式流批推理管道R
5、ay Data-架构Design DAG调度 带反压机制 丰富Source/Sink态 弹性机制+细腻度资源调配融LLM LLM Operator,持主流模型 对接推理态,持vLLM、SGLang存在优劣 解决离线计算链路,但法满时效场景Data-流计算数据流调度 离线式统抽象为Stream Stream分为UnBounded和Bounded 引End Flag于控制数据流的结束标志Backlog机制 基于下游Queue的数据积压做反压调控 低峰数据的IDLE超时下发机制,避免空等回调通知 完成数据批量回调通知户,业务做幂等Data-Source/SinkKafka 实时秒级场景,流式读写消息
6、队列Iceberg 近实时场景,流和批打通数据孤岛 上游的Ray流作业按Snapshot增量写 下游批和流作业消费不同Snapshot Between多场景复 回刷、离线推理、离线训练、近实时(分钟级)案例/特征程-流批管道现状痛点 CPU切/Spark,GPU推理/k8s GPU利率低,链路断层时效不DAG定义 业务定义计算流程 抽象每个Stage的算逻辑 对于特征场景,实时离线代码共效果优劣 吞吐提升4倍,GPU均利率75%+需幂等保障恢复,否则回刷失败从头计算Data-引CheckpointDAG增强 标记CheckpointID 虚拟Barrier记录每个环节进度CheckpointM