当前位置:首页 > 报告详情

刘政宁-基于计图框架的代码大模型.pdf

上传人: 张** 编号:159301 2024-04-05 31页 3.74MB

1、1OS2ATC 2024刘政宁非十科技2汇报提纲汇报提纲n代码生成的历史n代码大模型的特点与挑战n深度学习框架计图n计图在代码大模型方面的探索nFitten code3代码生成的历史代码生成的历史n计算机辅助软件,北大青鸟n零代码编程4代码大模型的特点与挑战代码大模型的特点与挑战n分析代码大模型的特殊性与困难nLLM -自然语言 transformern代码:一维 行状 但是行之间有结构和逻辑 5计图的探索计图的探索n代码大模型训练需求高准确度要求高:语法规则、逻辑关系、上下文需要更大的参数量、更多的数据导致更长的训练时间与更高的资源需求和挑战6计图语言大模型训练与微调计图语言大模型训练与微调

2、n显存优化传统数据并行模式下,所有GPU都存储一份模型参数和优化器,则7B模型需要单卡112G显存,175B参数需要单卡2800G显存!Jittor实现零冗余优化器技术(Zero Redundancy Optimizer),将模型、优化器分片存储到不同GPU上,实现显存高效利用参数优化器GPU0GPU1GPU2GPUN.7计图语言大模型训练与微调计图语言大模型训练与微调n分布式训练,实现多类并行模式并高效结合数据并行:分割数据到不同设备上进行计算模型并行:将模型分割分布到多个设备流水并行:将模型不同层的计算按流水排布,实现并行计算pipeline Parallelisim8计图语言大模型训练与

3、微调计图语言大模型训练与微调n支持多种大模型的训练与微调n相比Deepspeed+PyTorch,Jittor具有以下优势训练和微调速度提升20%内存消耗减少30%相同硬件资源条件下,支持训练模型大小 提升30%以上ChatGLMLLaMAAlpacaChineseAlpaca9计图语言大模型训练与微调计图语言大模型训练与微调n代码大模型训练效果提升n1.海量训练数据采样优化HuggingFace 的均匀随机采样方案需要预处理生成海量冗余文件,并且占用大量内存;预计算所有训练文档的索引,在不占用大量存储和内存资源的同时实现快速采样10计图语言大模型训练与微调计图语言大模型训练与微调n代码大模型

4、训练效果提升n2.逐层梯度裁剪为防止代码大模型训练过程中出现梯度爆炸,使用“梯度裁剪”算法减小梯度范围:=/max(1,|2|),为模型的第i个参数由于经典算法需要统计所有梯度的平方和后才能更新梯度,增加了临时显存与访存次数,因此简化为逐层裁剪,即=/max(1,|2|),为模型的第L层的第i个参数实验发现逐层裁剪不影响收敛速度,并且减少了6%显存,加速10%11计图语言大模型训练与微调计图语言大模型训练与微调n代码大模型训练效果提升n2.长上下文支持相较于一般的对话交流场景,代码和文档数据普遍 Token 数量较多,需要大模型支持更大的上下文窗口;想增加大语言模型的上下文处理能力,需要更多的

5、算力支持。例如,将上下文长度从2048扩展至8192,需要多消耗16倍算力。采用 Llama2-Long 训练方案,即先用 80%数据 4K 窗口,再用剩余 20%数据训练 32K 窗口。此训练方案与直接训练 32K 窗口性能几乎相同,但最多可以减少 40%的总计算量。12计图大模型训练与微调计图大模型训练与微调n计图大模型训练特点模型精度、训练曲线与国际主流解决方案完全对齐,如图1所示,JittorLLM-Train在训练OpenLLaMA-Chinese应用案例中,与DeepSpeed+PyTorch的精度保持完全一致。精度完全对齐精度完全对齐l 大模型训练上提升20%的性能。l 减少显存

6、压力,大大提升模型训练规模,最大可支持万亿级别的模型训练。lhttps:/ 模型全量预训练,32K上下文500B tokens 的代码与通用文本训练 1 个月相比 LLaMA2,收敛更快,loss更低LLaMA27B代码大代码大模型模型14计图的探索计图的探索n代码大模型推理需求高在代码补全场景中:请求频率高,响应速度要求快以GitHub Copilot 为例,虽然能提升编程效率,但是其速度仍较慢,跟不上用户输入速度,体验较差因此推理系统应做到高吞吐量,低延迟对大模型推理系统提出了挑战15计图语言大模型推理库计图语言大模型推理库n成本低成本低:相比同类框架,本库可大幅降低硬件配置要求(内存显存

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了计图(Jittor)在大模型训练、推理以及优化方面的突破和应用。计图实现了代码大模型的训练效果提升,包括历史、特点与挑战,深度学习框架计图,以及计图在代码大模型方面的探索。文章提到,计图支持多种大模型的训练与微调,相比Deepspeed+PyTorch,具有训练和微调速度提升20%,内存消耗减少30%的优势。计图还实现了显存优化,采用了零冗余优化器技术,将模型、优化器分片存储到不同GPU上,大大提升了显存高效利用。此外,计图语言大模型推理库降低了硬件配置要求,支持广,自主可控,并采用了动态swap机制和统一内存管理技术,实现了高吞吐量和低延迟。计图还推出了代码助手产品Fitten Code,速度和效果领先,能够实现最长上升子序列算法,并生成了ResNet的完整代码。总之,计图在大模型训练、推理和优化方面取得了显著成果,提供了高效、低成本的解决方案。
"计图如何提升代码大模型训练效果?" "Fitten Code如何实现长上下文支持?" "计图语言大模型推理库有哪些优势?"
客服
商务合作
小程序
服务号
折叠