孙艳庆-智能新篇章有道子曰大模型的创新与开源探索.pdf-在线下载-三个皮匠报告

1、智能新篇章：有道“子曰”大模型的创新与开源探索孙艳庆网易有道演讲嘉宾孙艳庆网易技术总监网易有道AI语音交互团队负责人2010年获中科院声学所信号与信息处理专业博士学位毕业后参与并主导了三星S-Voice在线/离线语音方案、打造了国内首发的免触语音拨号/接听、拍照等产品解决方案。19年初加入网易有道、组建语音技术团队，在语音、大模型、AI老师等多方向上结合场景不断打磨、取得突破，支撑联通集团、网易云音乐、网易传媒、长安深蓝汽车、OPPO离线通话翻译、宝宝树、Hi Echo、有道词典笔/听力宝等明星产品！发表学术论文10余篇，授权专利10余件，带领团队在相关国际评测中获得多项佳绩。目前聚焦在教育学

2、习场景打造下一代、更极致好用的AI语音/大模型解决方案！目录CONTENTS1.人工智能技术与有道的布局2.“子曰”大模型的进展3.创新应用：基于“子曰”的实践案例4.开源精神：有道的承诺与实践人工智能技术与有道的布局PART 01团队持续投入Transformer2023子曰大模型有道AI+教育布局“子曰”大模型的进展PART 02通用大模型概览大力出奇迹：大规模、高质量的数据集（可购买）算法和模型的优化（卷各参数、人才、经验）算力资源（GPU、存储、网络带宽，可购买）重金砸出的大模型LLMReleaseParametersContextPretraining TokensSupervi

3、sed fine-tuningHuman PreferencesMMLUMATHGSM8KHumanEvalGPT42023.3.141.7T128K86.40%52.90%92%67%Claude 3 Opus2024.3.4 2T200K40T86.80%61.00%95%85%Llama22023.7.1870B4K2T100K+1M+69.80%54.10%31%Grok-12023.3.17314B8K73%24%62.90%63.20%DBRX2023.3.27132B/36B32K12T73.70%66.90%70.10%Grok-1.52023.3.28128K81.30%50

4、.60%90%74.10%用有限的资源研发领域LLM 从拿着锤子找钉子到对着钉子找锤子资源用在刀刃上从场景出发，聚焦在一两个核心功能不追求通用能力，但要在目标场景做到最好设计一套完整的系统，而不全依赖大模型本大模型只是核心能力，而不能解决所有问题选择适合的模型尺寸 7B、14B、70B？Qwen全家桶不同阶段看是动态的，长期看还是要往大参数发展持续加强领域数据建设通用的数据，可以快速获取领域的高质量数据，需要长期、持续的投入算力资源短期紧张，长期看，有各种办法能够缓解技术要不断突破LLM研发的各类技术DPO（Direct Preference Optimizat

5、ion）一种基于人类偏好优化语言模型的方法与RLHF不同，DPO不依赖于明确的奖励建模或强化学习过程它直接优化模型输出，使其更符合人类的偏好DPO通过比较好的和不好的响应，然后调整模型以增加好的响应的概率这种方法简化了训练过程，减少了计算成本，并且能够提高模型输出的质量，特别是在情绪控制方面表现出色Agent赋予LLM一种策略性思维结构，模拟人类处理问题的方法Agent可以是“角色框架”，它让模型能够根据特定的角色或情境来生成响应这种方法使得LLM能够更好地理解和响应复杂的用户指令，提供更加个性化和情境化的交互体验RAG（Retrieval-Augmented Generation）RAG结合

6、了信息检索（IR）和生成模型的优势，通过从大型文档数据库中检索相关信息来增强模型的生成能力RAG技术首先提出了Naive RAG，然后发展到Advanced RAG，再到Modular RAG这些进展使得RAG能够更有效地处理特定知识，提高生成内容的准确性和相关性RAG通过迭代搜索和生成过程，使得模型能够生成更加准确和可靠的响应，特别是在需要最新信息或专业知识的场景中FT（Fine-tuning）FT是LLM开发中的一个关键步骤，它通过在特定任务的数据集上进一步训练预训练模型来提高模型的性能FT允许模型学习特定任务的特征和要求，从而在特定领域或任务中表现得更好FT可以增强模型的知识，调整输出以