1、 请务必阅读正文之后的免责条款部分 股票研究股票研究 行业专题研究行业专题研究 证券研究报告证券研究报告 股票研究/Table_Date 2024.09.20 MoE 与思维链助力大模型技术路线破局与思维链助力大模型技术路线破局 Table_Industry 计算机计算机 Table_Invest 评级:评级:增持增持 上次评级:增持 Table_subIndustry 细分行业评级细分行业评级 Table_Report 相关报告相关报告 计算机OpenAI o1 开启大模型应用新范式2024.09.16 计算机银行间交易自主可控提升行业景气度2024.09.03 计算机示范区落地,交通信息化
2、景气度再获验证2024.07.25 计算机自主可控迎内外催化,行业有望超预期2024.07.22 计算机萝卜快跑带领自动驾驶进入快速落地期2024.07.14 table_Authors 李博伦李博伦(分析师分析师)伍巍伍巍(研究助理研究助理)0755-23976516 021-38031029 登记编号登记编号 S0880520020004 S0880123070157 本报告导读:本报告导读:Transformer 架构大模型架构大模型对算力成本要求高,一定程度阻碍了大模型研发和应用的对算力成本要求高,一定程度阻碍了大模型研发和应用的进一步创新,随着进一步创新,随着 o1 大模型的发布以及
3、大模型的发布以及 MoE 架构的成熟,技术路线有望破局。架构的成熟,技术路线有望破局。投资要点:投资要点:Table_Summary 投资建议:投资建议:随着 Transformer 架构大模型在算力侧成本攀升,升级迭代遇到瓶颈,技术路线相关探索有望打造性能更优、应用范围更专更准的 AI 大模型。推荐标的:科大讯飞、虹软科技、万兴科技、福昕软件、金山办公、鼎捷软件、紫光股份、浪潮信息,受益标的:昆仑万维、润达医疗。巨额算力投入成为技术和效益优化巨额算力投入成为技术和效益优化的的瓶颈,技术路径破局迫在眉瓶颈,技术路径破局迫在眉睫。睫。从效益端看,基于 Transformer 架构的模型在训练计算
4、量(training FLOPs)达到一定量级时,模型性能才出现向上的“拐点”,因此在大模型训练任务中,算力成为必须的基础性资源。但随着模型越来越大,算力成本越来越高,成本飙升源于模型复杂度和数据量攀升对计算资源的需求。Anthropic 首席执行官表示,三年内 AI 模型的训练成本将上升到 100 亿美元甚至 1000 亿美元。巨额的大模型训练投入一定程度减缓了技术进步和效益提升,因此技术路径破局尤为关键。当前 MoE 以及 OpenAI o1 的“思维链”是重要探索实践。MoE 框架是对框架是对 Transformer 架构的优化,关键在于路由策略及微架构的优化,关键在于路由策略及微调调。
5、其能在不给训练和推理阶段引入过大计算需求的前提下大幅提升模型能力。在基于 Transformer 的大型语言模型(LLM)中,每个混合专家(MoE)层的组成形式通常是个“专家网络”搭配一个“门控网络”G。门控函数(也被称路由函数)是所有 MoE 架构的基础组件,作用是协调使用专家计算以及组合各专家的输出。根据对每个输入的处理方法,该门控可分为三种类型:稀疏式、密集式和 soft式。其中稀疏式门控机制是激活部分专家,而密集式是激活所有专家,soft 式则包括完全可微方法,包括输入 token 融合和专家融合。MoE 在 NLP、CV、语音识别以及机器人等领域表现出色,且在更高性能的大模型推理芯片
6、 LPU 加持下,MoE 模型提升效果显著。OpenAI o1 基于“思维链”的创新推理模式,学会人类“慢思考”,基于“思维链”的创新推理模式,学会人类“慢思考”,专业领域的效果突出专业领域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的一步在于拥有人类“慢思考”的特质:系统性、逻辑性、批判性、意识性。在响应用户提出的难题之前,OpenAI o1 会产生一个缜密的内部思维链,进行长时间的思考,完善思考过程、意识逻辑错误、优化使用策略、推理正确答案。这种深度思考能力在处理数学、编程、代码、优化等高难度问题时发挥重要作用,能够进行博士级别的科学问答,成为真正的通用推理。推理侧的应