1、大模型与RAG技术在教育领域的应用探索网易有道 林辉Outline 背景简介“子曰”大模型 QAnything 应用落地背景简介 关于有道 网易旗下子公司,2006.6 用户量10亿+,月活1.2亿+全球用户量最大互联网教育品牌 关于我 2011年毕业于中科院计算所后加入有道 负责过计算广告、图像/语音识别、文档翻译等研发 目前在负责LLM/RAG的商业化落地 子曰和QAnything 子曰:国内首个教育大模型 QAnything:自研RAG引擎,2024年1月开源,近1万stars背景简介-技术积累场景化能力自然语言翻译服务文本翻译图片翻译语音翻译文档翻译同传通用文字识别手写体文字识别表格识
2、别整题识别(含公式)文档解析语音合成长语音转写实时语音识别实时语音评测个性化语音定制精品题库题目识别切分中英文作文批改学业大数据平台试卷手写体擦除计算机视觉服务智能语音服务智慧教育服务核心引擎YNMT自然语言翻译NLU语义理解OCR光学字符识别ASR语音识别TTS语音合成扫描交互指点交互手写交互高拍仪输入虚拟人交互智能交互Interspeech非母语儿童英语语音识别双赛道第一名NLPCC中文语法纠错第一名AACL 中文语法错误诊断第一名InfoQ 中国技术力量榜单TOP10量子位人工智能领航企业 TOP50技术积累-从Transformer到子曰有道NMT上线attention is all
3、you need的文章2017坚持把最先进的技术落地教育,让“学习更加高效和轻松”,践行“夫子教人,各因其材”有道NMT升级并基于Transformer模型2018有道词典笔2代首次搭载离线Transformer NMT2019将基于Transformer的ASR和TTS技术落地业务2020实现基于Transformer 的流式ASR技术落地2021有道词典笔P5搭载 的 自 研 离 线ASRTTS也升级为Transformer技术2022有道推出国内首个大模型子曰,及六大应用场景2023子曰大模型计算机视觉智能语音AI技术有道神经网络翻译高性能计算子曰-面向文字处理和学习场景的大模型子 曰
4、大 模 型通 用 问 答学 科 问 答文 字 处 理子曰-国内首个教育大模型9 月1日,子曰大模型通过深度合成服务算法备案。11月4日,通过国家七部委联合公布的生成式人工智能服务管理暂行办法的备案,成为首批通过备案的教育大模型。l参与教育、金融、政务、文旅等大模型系列标准制定子曰大模型技术架构图妙笔生花的文字助手,答疑解惑的AI老师目标应用场景数据通用预训练数据业务数据合成数据数据多样性LLM翻译AIBox写作指导口语教练上下文语境翻译中文语法逻辑中文表达习惯长难句翻译精简翻译集合创作/问答风格化转写语法纠错论文去重写作模板写前指导/写后批改题目解析/核心观点作文结构/作文素材多维评分/作文总
5、评改进建议/好词好句自由对话场景对话对话推荐对话评价训练双语词表指令微调对齐自动化评估训练加速上下文窗口扩展数据清洗学科老师多轮互动全学科问答循循善诱多模态交互子曰-技术工作要点 LLM数据、预训练、指令微调、对齐、评估、推理服务 数据 自有数据+专有领域数据+数据合成+安全性 质量高、数据多、业务强相关、丰富多样 算力 1000 A800卡子曰-技术工作要点 跑通LLM数据、预训练、指令微调、对齐、评估、推理服务全流程 技术攻关 从头训练 vs.合适的基座模型 高效高质量的词表适配 上下文窗口扩展 训练效率提升:多机多卡,3D并行、混合精度训练、断点重训关键参数高精度 垂直领域优化:prom
6、pt调优、系统微调、人类偏好对齐 指令遵循能力提升 解码效率提升:消费级显卡提供在线服务,混合精度、量化、动态batch 价值观对齐:模型安全优化+专有安全模块 评估:人工评估 vs.自动评估RAG解决大模型应用落地教育的更多实际问题幻觉知识更新时间更新(训练)成本质量问题服务(推理)成本优势 Velocity(速度)Value(价值/成本)Volume(数据量)Variaty(数据多样性)溯源检索增强生成(RAG)2.检索【上下文数据、实时数据等】3.增强提示查询1.query4.回应QAnythingQAnything 开源RAG引擎 202401-Retrieval-Augmented