Kimi 稳定高效的 LLM 基础设施构建之道.pdf

上传人：山海

编号：627093

2025-04-21

PDF 23页 4.42MB

《Kimi 稳定高效的 LLM 基础设施构建之道.pdf》由会员分享，可在线阅读，更多相关《Kimi 稳定高效的 LLM 基础设施构建之道.pdf（23页珍藏版）》请在三个皮匠报告上搜索。

1、Kimi 稳定效的 LLM 基础设施构建之道维啸之暗系统程师01020304规模训推集群的挑战全链路稳定性提升效资源利强化学习中的混合部署录01规模训推集群的挑战量的资源造成故障频次变，如何快速监测并恢复实验变得尤其重要机器频繁故障户的开发机、件存储存在量的浪费情况，根据量动清理的策略未必是最优的。需要建效的资源使范式资源使不够效线上推理呈现常明显的潮汐效应，资源需要能动态的根据时间进分配，避免资源浪费推理潮汐效应强化学习中存在训推两种 workload，需要平衡者的资源占防资源分配不均衡RL 资源分配不均规模训推集群的挑战02The more you stabilize,the more y

2、ou save全链路稳定性提升区分好机器、坏机器根据任务查询机器异常事件PreCheck、周期巡检CPU 侧监控 py 和 torch C 调栈 GPU 侧插 cuda event 监控调栈全链路监控在离线志分析 Tensorboard 异常指标检测智能志分析时刻不在 async 存 ckpt ckpt 效管理和备份连续异步 checkpointP任务全命周期监控LMCVarysPreCheck、周期巡检PreCheck 测试标准集合通讯性能情况测试 GPU d2h 等性能指标使训练中创建的 group 做 group 通讯检测，避免调度到故障机器上周期巡检、故障维护、检恢复对机器 G

3、PU 故障、线故障、pcie 降速等等故障问题进周期巡检故障机器即维护，等待排空，尝试重启愈，如故障未修复，动化通知供应商介故障机器修复后动进检流程，动加集群调栈全链路监控CPU 调栈监控周期记录 py 调栈任务奔溃之后记录 torch 调栈提供聚类信息供户查看是否有异常代码或机器GPU 调栈监控分级插 CUDA event 导出 event 信息整合成时序图智能志分析离线志聚合查询从任务的各种志中查询，匹配些特殊的模式，寻找报错的实际志和机器故障联动，展示导致个任务故障的所有诱因在线志监控从 tensorboard、机器巡检等在线监控指标中寻找当前任务是否有异常连续异步 c

4、heckpoint不间断异步 checkpoint 实现损 async checkpoint saver 针对重要任务不间断开启异步 checkpoint 存储任务重启能即基于最新的 checkpoint 启动，并保证状态完全致，避免算浪费Checkpoint 备份同步系统针对短时间内新增量 checkpoint 的场景提供快速删除旧 checkpoint 和抽样备份 checkpoint 到对象存储的功能跨集群同步 checkpoint，快速从另个集群拉取训练任务可直接从对象数据中拉取 checkpoint 做规模实验03Efficiency is all you need效资源利全

5、位 LLM 开发效率提升动态申请云上开发资源在 ECS 基础上通过容器化实现持任意 docker 镜像的开发机使 remote 的式交互式启动 GPU 资源于 Debug，并基于 GPU 量做动浪费率监控基于云 k8s 节点池动扩缩容功能，动态申请交互式 worker 便于做临时调试和资源使任意级录量统计 fscounter 实现任意级录量监控缓存每次扫描的量信息，避免每次都做全局扫描模型异步 eval Watch 训练 checkpoint，对每个 checkpoint 异步做 eval跨区域多实验灵活对统托管 tensorboard 优化读取速率，持任意实验之间的 tensorb

6、oard 对持实验 merge，merge 之后的实验互相对ECS 开发机CPU workerGPU worker弹性动清理跨机房推理模型分发1重保服务，必须保证稳定运线上 Kimi 推理服务2优先级训练任务不可抢占训练任务3低优任务，使潮汐资源Spot 训练任务4插空调度，随时被抢占低优先级离线推理训推多级潮汐系统训推多级潮汐系统04RL Hybrid Deployment强化学习中的混合部署强化学习 Infra 的挑战训推是两种不同的模式训练和推理框架跑的是两套代码

Kimi 稳定高效的 LLM 基础设施构建之道.pdf

相关报告