1、Kwaipilot 快代码模型 研发领域落地实践演讲:詹正快代码模型算法负责01什么是 Kwaipilot?4502现有代码模型的问题是什么?我们为什么要研?模型遇到的问题技术案评测效果远超开源SOTA代码依赖复杂模型上下窗推理耗时真实研发场景复杂,当前开发项往往依赖项众多,需要较多的先验知识模型上下窗,编写代码依赖多,难以给模型输够丰富的代码结构信息。模型推理成本,推理耗时,特别是在下场景与实时性要求的代码编写环节盾Context RichLong Context数据增强Avg.BLEU204060CodeLlamaDeekseek-CoderStarCoderStarCoderV2开源模型
2、私域代码fine-tuneContext RichLong Context通过检索召回、程序分析技术等提升输context信息密度 1.调流、数据流 2.类、依赖包 3.相似代码、辅助段 切对类编程有效的、都是模型需要的模版代码加权总和中间件业务代码跨件成函数块成逻辑块成级别成kwaipilotCodeLlama(Meta)数据标注*模型筛选数据轮模型训练数据回流真实部署后户采纳率持续增加MOE研One Attention算法,训练情况损外推8倍上下窗多专家混合络 体验与成本的平衡 速度与性能的拉扯35%2023-10-162023-11-072023-11-292023-12-212024-
3、01-122024-02-05模型强弱的根本不在结构,是数据使研“Context-Rich”训练技术搭建逻辑推理链条模型效果在不同评估集上相通模型提升70%学术成果Prompt-based Code Completion via Multi-Retrieval Augmented Generation(TOSEM,CCF-A)https:/arxiv.org/abs/2405.07530通过检索召回、程序分析技术等提升输context信息密度 1.调流、数据流2.类、依赖包3.相似代码、辅助段(RAG for Code)4.切对类编程有效的、都是模型需要的LLM as Agent场景技术案内部
4、 OnCall技术资料查询研发作流 结合传统搜索以及新型RAG技术,依托上下能加持,基于内部档搭建领域智能Oncall服务。相传统向量数据库问答案具有接成本低,更新相应快,回答更准确的优势。通过AI理解,拦截户问题,降低内部具平台的答疑Oncall成本。Context Rich for Chat利模型的理解和使具能,快速挖掘与研发任务相关的信息。提供 论查询提要,公私域知识检索,代码解释执等研发具。部分内部具上较难,成本较,Oncall成本较。通过让模型学习领域知识,掌握内部具的基本使技能,通过然语调度内部具,给研发员提供更沉浸式的开发环境,降低使内部具的槛和时间成本。Long Context
5、Agent:模型使具能研One Attention算法,训练情况损外推8倍上下窗训练模型对于内外部具的使能,模型通过然语识别户意图,完成内外部具的效使。论要点总结代码解释执通过检索召回、程序分析技术等提升问答Context 信息质量密度,进步训练模型。天KDevKeepTeam学术成果,相关作被openai gpt-4o 官技术报告引Agentless:Demystifying LLM-based Software Engineering Agents https:/arxiv.org/abs/2407.01489“编码即标注”的数据轮,质量的合成数据1000+位线研发程师30000+条质量代
6、码语料+1.88pp采纳率提升+20.35%快私域代码成准确率全公司代码语料增强常态化(2024 Q2)以代码续写模型举例,我们每天收到数百万条编码过程中接受或者拒绝建议的数据,如何利这些偏好数据,帮助模型“我进化”?插件志数据如何利质量合成数据学术成果Magicoder:Empowering Code Generation with OSS-INSTRUCT(ICML,CCF-A)https:/arxiv.org/pdf/2312.02120该成果被llama3.1技术论引03以 1/30 的成本训练 全尺 SOTA 代码续写模型技术路线 low quality data huge amou