产业政策与法规研究赛迪研究院 主办2025 年 10 月 20 日总第 59 期4第期本期主题 端侧大模型安全风险与治理研究所长导读当前,以生成式大模型为代表的人工智能技术正以前所未有的速度融入经济社.
2025-11-05
36页




5星级
36KR RESEARCH2025年中国大模型行业发展研究报告CBDG四维生态成为新范式,体系化竞争成为关键36氪研究院2025.11236Kr-2025年中国大模型行业发展研究报告大模型已成为中国科.
2025-11-04
40页




5星级
1大模型一体机应用大模型一体机应用研究报告研究报告(2022025 5 年年)中国信息通信研究院人工智能研究所2025年6月大模型一体机应用研究报告大模型一体机应用研究报告(2025(2025 年年).
2025-10-31
48页




5星级
中文大模型基准测评中文大模型基准测评2022025 5年年9 9月月报告报告 2025.10.16 2025年中文大模型阶段性进展9月评估SuperCLUE团队精准量化通用人工智能(AGI)进展,定义.
2025-10-17
25页




5星级
智能体驱动的大模型系统工程与产业实践解读云服务商与电信运营商的合作探索2025年9月研究背景01智能体驱动的大模型系统工程研究02未来发展趋势03智能体驱动的大模型系统工程研究背景01伴随人工智能发展.
2025-10-14
16页




5星级
智能体驱动的大模型系统工程与产业实践电信运营商与云服务商的合作探索腾讯云计算(北京)有限责任公司中国信息通信研究院计算与大数据研究所2025年9月编委会主编张晋、栗蔚编委(排名不分先后)秦若毅、周锐、.
2025-10-14
35页




5星级
AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书主编单位:中科算网科技有限公司算泥 AI 开发者社区(https:/)联合发布:中国科学技术大学苏州高等研究院AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书目目 录录一、前言.11.1 报告背景与意义.11.1.1AI 大模型爆发与算力需求激增.11.1.2 国内外政策与产业驱动.31.1.3 技术融合与开发者需求.5二、AI 大模型与算力行业现状.62.1 全球 AI 大模型发展概况.62.1.1 国际大模型技术演进.62.1.2 国内大模型技术进展.82.1.3 大模型应用场景拓展.102.2 算力需求爆发与挑战.132.2.1 训练与推理算力需求分析.132.2.2 算力墙、存储墙、通信墙.152.2.3 算力成本与能效挑战.182.3 国内外算力基础设施对比.202.3.1 全球算力规模与分布.202.3.2 国内智算中心建设.232.3.3 政策支持与地方实践.252.4 异构算力成为主流趋势.272.4.1 异构计算定义与分类.272.4.2 异构算力在大模型场景优势.28AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书三、异构算力技术架构与核心组件.303.1 异构计算硬件体系.303.1.1 主流 AI 芯片对比.303.1.2 国产 AI 芯片技术路线.363.1.3 芯片性能与能效评测.393.2 高速互联与网络架构.413.2.1 高速互联技术.413.2.2 智算中心网络拓扑.443.2.3 集群通信优化.483.3 存储与数据管理.513.3.1 大模型存储需求.513.3.2 分布式存储技术.553.3.3 数据预处理与加载.58四、大模型与异构算力融合关键技术.614.1 软硬件协同优化.614.1.1 算子融合与指令优化.614.1.2 编译器与中间表示.634.1.3AI 框架适配.664.2 大模型并行训练技术.684.2.1 数据并行.684.2.2 模型并行.704.2.3 混合并行与 4D 并行.73AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书4.2.4 条件计算与 MoE.754.3 推理加速与部署优化.774.3.1 模型压缩技术.774.3.2 推理引擎优化.804.3.3 KVCache 与分离式推理.834.3.4 边缘-云协同推理.854.4 异构资源调度与编排.874.4.1 资源统一管理.874.4.2 任务调度策略.904.4.3 弹性伸缩与算力交易.93五、国内企业实践与案例分析.945.1 华为昇腾:异构算力与大模型融合实践.945.1.1 云端芯片在互联网大厂部署.945.1.2 边缘与端侧落地案例.965.2 国内企业布局.975.2.1 寒武纪.975.2.2 阿里平头哥与含光芯片.985.2.3 腾讯星星海与 AI 加速卡.1005.3 智算中心与云服务商实践.1025.3.1 国家级智算中心.1025.3.2 商业云服务商.1045.4 开源社区与开发者生态.105AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书5.4.1 国内 AI 开源平台.1055.4.2 开发者工具链与支持.106六、行业应用与场景落地.1076.1 互联网与内容生成.1076.1.1AIGC 应用.1076.1.2 大模型搜索与推荐.1096.2 金融与医疗.1116.2.1 智能风控与投研.1116.2.2 医学影像与药物研发.1136.3 自动驾驶与智能制造.1156.3.1 车规级 AI 芯片与边缘计算.1156.3.2 工业质检与数字孪生.117七、挑战、趋势与展望.1207.1 主要挑战.1207.1.1 算力供给与需求缺口.1207.1.2 软件生态成熟度.1217.1.3 能效与绿色计算.1237.1.4 数据安全与隐私保护.1247.2 技术趋势.1267.2.1 芯片与封装技术.1267.2.2 大模型技术演进.1287.2.3 算力网络与交易.129AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书7.3 产业与生态展望.1317.3.1 国产异构算力产业链.1317.3.2 开发者生态繁荣.132八、附录.1338.1 名词解释.1338.1.1 异构计算.1338.1.2AI 大模型.1338.1.3 训练与推理.1348.1.4 算力密度与能效.1348.2 参考文献.1348.2.1 国内外权威报告.1348.2.2 学术论文与技术文档.1358.3 致谢.1358.3.1 行业专家与企业支持.1358.3.2 开源社区与开发者.135AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 1 一、前言一、前言1.1 报告背景与意义报告背景与意义1.1.1 AI 大模型爆发与算力需求激增大模型爆发与算力需求激增近年来,人工智能大模型技术呈现爆发式增长,模型参数规模从亿级迅速扩展至万亿级。根据最新研究显示,全球 AI 算力需求正以每 34 个月翻番的速度突破临界点,远超传统摩尔定律预测的计算能力提升速度(每 18 个月翻倍),形成了所谓的逆摩尔定律(Inverse Moores Law)。IDC 预测,2023-2030 年全球 IDC 市场将保持高速增长,其中 AI 算力需求增速显著高于传统算力。逆摩尔定律下的 AI 算力需求爆发随着 GPT-5、Llama 4、Claude Opus 4.1 等大模型的不断演进,模型参数规模持续扩大。2025 年,OpenAI GPT-5 参数规模行业预估从 3 万亿到 52 万亿不等,AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 2 业界已开始关注模型效率而非简单扩大参数量,数据质量、数据多样性和领域覆盖度成为更重要的竞争因素。这种膨胀速度带来了前所未有的算力需求。据测算,训练 Llama 4 的成本预计花费数亿美元,而 2020 年训练 GPT-3 的成本约为450 万美元,五年间训练成本增长数十倍。这种算力需求的激增使得单一架构的算力供应难以满足,异构算力成为应对这一挑战的必然选择。异构算力:大模型时代的关键解决方案与此同时,推理场景的多样化进一步推动了对异构算力的需求。从通用对话到行业专用应用,从 AIGC 到智能助手、代码生成、多模态生成(视频、音乐、3D、数字人)等场景,对算力的需求各不相同有的需要高并行计算能力,有的需要低延迟响应,有的则对能效比有极高要求。这种多样化的需求使得单一类型的计算单元难以全面满足,异构算力通过组合不同特性的计算单元(如CPU、GPU、FPGA、ASIC 等),能够针对不同场景提供最优的算力解决方案,成为大模型时代的刚需。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 3 1.1.2 国内外政策与产业驱动国内外政策与产业驱动在全球范围内,各国政府纷纷出台政策支持 AI 和算力基础设施发展,形成了强有力的产业驱动力。中国将人工智能和算力基础设施纳入国家战略,明确提出加快数字化发展,建设数字中国。截至 2025 年 6 月,中国在用算力中心标准机架达 1085 万架,智能算力规模达 788EFLOPS(FP16 半精度),算力总规模位居全球第二。中研普华预测,2025-2030 年中国数据中心算力需求将以年均 20%的增速扩张,其中人工智能算力占比将从 30%提升至 50%。中国算力基础设施建设进展东数西算工程作为国家战略,已发展成为重大生产力布局战略工程。截至2025 年 8 月,八大算力枢纽节点协同发展成效显著,规划建设超过 250 条东数西算干线光缆,集群间光层直达链路已拓宽至 1232 Tbps。2025 数博会期间,关于进一步强化东数西算工程算力枢纽协同发展的联合倡议发布,提出要AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 4 共建算力监测与调度体系,打破区域壁垒,统一技术标准与安全规范。根据规划,到 2025 年底,我国将初步建成综合算力基础设施体系,国家枢纽节点地区各类新增算力占全国新增算力的 60%以上。全球 AI 算力竞争与产业生态构建在国际层面,全球 AI 算力竞争日趋激烈。据 IDC 最新预测结果显示,2025年中国智能算力规模将达到 1,037.3 EFLOPS,并在 2028 年达到 2,781.9 EFLOPS,2023-2028 年中国智能算力规模五年年复合增长率达 46.2%。全球 AI 服务器市场预计到 2025 年将达到 3,000 亿美元,年增长 46.1%。Gartner 预测 2025 年生成式AI 支出将达 6440 亿美元,其中约 80%用于 AI 硬件。产业层面,企业、资本、开发者多方参与生态构建。国内互联网巨头如阿里巴巴、腾讯、百度等纷纷加大在 AI 芯片和算力基础设施领域的投入;寒武纪、昇腾等国产 AI 芯片企业快速崛起;各类智算中心、AI 公共算力平台如雨后春笋AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 5 般涌现。资本市场上,AI 算力相关企业备受青睐,融资活动活跃。开发者社区日益繁荣,为技术创新提供了源源不断的动力。这种多方参与的生态构建,为AI 大模型与异构算力的融合发展创造了良好的产业环境。1.1.3 技术融合与开发者需求技术融合与开发者需求面对大模型带来的算力挑战,单一架构的计算单元已难以满足需求,大模型与异构算力的深度融合成为突破性能瓶颈、降低成本的关键路径。异构计算通过集成不同类型的计算单元(如 CPU、GPU、FPGA、ASIC 等),发挥各自的优势,实现更高的性能和能效。例如,GPU 在大规模并行计算方面表现优异,适合大模型训练;ASIC 在特定任务上能效比极高,适合推理加速;FPGA 则具有灵活可编程的特性,能够适应不断变化的算法需求。通过异构计算架构,可以将不同类型的计算任务分配给最适合的处理单元,从而实现整体性能的最优化。大模型与异构算力的深度融合然而,异构算力的应用也带来了新的挑战。不同架构的硬件需要统一的编程模型、编译优化和任务调度机制;异构系统中的数据移动和通信开销可能成为新的瓶颈;开发者需要掌握多种硬件架构的编程技巧,学习曲线陡峭。这些问题使得大模型与异构算力的融合不仅仅是硬件层面的组合,更需要软件栈、编程模型、系统架构等多方面的协同创新。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 6 异构算力融合面临的挑战与解决方案在这一背景下,开发者亟需系统化的技术指南与实践参考。当前,关于大模型开发的资料虽然丰富,但大多聚焦于算法层面,对于如何在异构算力环境下高效部署和优化大模型的系统性指导相对缺乏。开发者需要了解不同硬件架构的特性、适用场景和性能表现;需要掌握异构环境下的编程模型和优化技巧;需要学习如何设计能够充分发挥异构算力优势的系统架构。本报告旨在填补这一空白,为开发者提供全面、实用的技术参考,推动大模型与异构算力的深度融合。二、二、AI 大模型与算力行业现状大模型与算力行业现状2.1 全球全球 AI 大模型发展概况大模型发展概况2.1.1 国际大模型技术演进国际大模型技术演进2025 年,全球 AI 大模型技术呈现出快速迭代、规模持续扩大、效率显著提AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 7 升的发展趋势。以 OpenAI 的 GPT 系列为代表,从 GPT-3 的 1750 亿参数发展到GPT-4 的预估 1.7 万亿参数规模,再到 GPT-5 可能达到 3 至 50 万亿参数,模型参数量呈指数级增长。Meta 的 Llama 系列作为开源大模型的标杆,2025 年 4 月发布的 4.0 版本首次采用 MoE(Mixture of Experts)架构,提供了三个不同规模的版本:Llama 4 Scout(1090 亿参数)、Llama 4 Maverick(4000 亿总参数,170亿激活参数)和 Llama 4 Behemoth(2 万亿总参数,2880 亿激活参数,16 个专家),展现了大模型架构的创新方向。全球 AI 大模型参数规模的指数级增长与 MoE 架构的创新应用。在技术架构方面,Transformer 已成为大模型的主流架构基础,同时各种创新变体不断涌现。MoE(混合专家模型)架构通过动态路由机制,在保持模型容量的同时显著降低了计算成本;世界模型(World Models)探索构建对环境的内部表征,为实现更通用的人工智能提供了新思路;多模态能力成为大模型的标配,从单一的文本处理扩展到图像、音频、视频等多种模态的理解和生成。2025 年 8月,Anthropic 发布 Claude Opus 4.1,将编码性能提升至 SWE-bench Verified 基准测试的 74.5%,显著增强了深度研究和数据分析能力。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 8 AI 大模型技术架构的演进与开源生态的繁荣。开源生态的繁荣是国际大模型发展的另一重要特征。智谱的 GLM 系列、Meta 的 Llama 系列、阿里的 Qwen 系列、腾讯混元系列、Mistral AI 的 Mistral系列、阿联酋的 Falcon 系列等开源模型的发布,极大地推动了大模型技术的普及和创新。这些开源模型不仅提供了强大的基础能力,还通过开放的权重和代码,为研究者和开发者提供了宝贵的实验平台,催生了大量基于开源模型的改进和应用。据 Artificial Analysis 公司 2025 年 Q1 报告显示,开源模型在性能上与闭源模型的差距正在缩小,在某些特定任务上甚至实现了超越。2.1.2 国内大模型技术进展国内大模型技术进展AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 9 中国大模型“提质增效”及主要参与者中国在大模型领域的发展呈现出提质增效的态势,涌现出一批具有国际竞争力的模型和产品。阿里巴巴的通义千问(Qwen)系列在开源社区备受关注,通过持续迭代优化,在多模态理解和生成方面取得显著进展。华为的盘古大模型在千亿级参数基础上,进一步优化了训练效率和推理性能,覆盖 NLP、科学计算等多个领域,并在华为的全栈 AI 生态中得到广泛应用。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 10 智谱AI的GLM系列和月之暗面的KIMI智能助手代表了国内大模型在特定技术路线上的突破。KIMI 通过创新的网络结构和工程优化,在长文本处理方面形成了差异化优势,实现了无损的长程注意力机制。GLM 系列则在 2025 年进一步融合了原生 Agent 能力,实现模型与 Agent 的深度融合,提升了复杂任务的执行能力。2025 年,DeepSeek 系列模型在国内外引起广泛关注,其 R1-0528 模型智能指数已达到 68,相较于最初的 67B 模型有了显著提升,展现了中国在大模型训练效率优化方面的实力。国内大模型在开源生态方面也取得了显著进展,Deepseek、Qwen、ChatGLM 等开源模型在 GitHub 等平台获得了大量关注和应用,形成了活跃的开发者社区。2.1.3 大模型应用场景拓展大模型应用场景拓展AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 11 大模型市场规模及应用生态概览随着大模型技术的不断成熟,其应用场景也在不断拓展和深化。从最初的通用对话场景,逐步扩展到金融、医疗、工业等垂直行业,形成了丰富的应用生态。据艾媒咨询数据显示,2024 年中国 AI 大模型市场规模约为 294.16 亿元,预计2026 年将持续快速增长。互联网与内容生成领域的大模型应用在互联网与内容生成领域,AIGC(AI 生成内容)应用蓬勃发展,包括文生图、文生视频等应用,异构算力的支持使得实时生成成为可能。大模型搜索与推荐系统通过向量检索、语义理解等技术,GPU/ASIC 加速推荐系统推理,提升了AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 12 用户体验和系统效率。智能客服、内容审核、代码生成等应用也在互联网企业中得到广泛应用,大幅提升了业务效率和用户体验。金融与医疗领域的大模型应用在金融领域,大模型与知识图谱结合,在智能风控与投研方面发挥重要作用。低延迟推理、高并发处理能力使得大模型能够实时分析海量金融数据,识别风险模式,辅助投资决策。国产 AI 芯片在金融客户案例中表现出色,为金融行业的智能化转型提供了有力支撑。在医疗领域,大模型应用场景迅速拓展,涵盖药物发现、辅助诊断、个性化治疗、医患服务等各个方面,展现出加快药物开发、早期发现疾病、提升诊疗效率的巨大潜力。医学影像分析、病理诊断、药物分子模拟等应用对算力要求极高,异构算力的引入显著提升了处理效率和准确性。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 13 工业领域的大模型应用在工业领域,大模型在工业质检、数字孪生、设备预测性维护等方面发挥重要作用。视觉质检大模型能够识别复杂工业场景中的缺陷,数字孪生技术通过大模型仿真优化工业流程,边缘异构算力的部署使得实时分析和决策成为可能。2.2 算力需求爆发与挑战算力需求爆发与挑战2.2.1 训练与推理算力需求分析训练与推理算力需求分析大模型训练对算力的需求呈现出前所未有的增长态势前沿模型的训练成本正以惊人的速度膨胀,Anthropic CEO 预测训练成本可能在 2027 年达到 100 亿至1000 亿美元级别。千亿参数模型训练一般需要上千张高性能 GPU 卡支撑,训练时间长达数月,对算力基础设施提出了极高要求。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 14 大模型训练成本的爆炸式增长推理场景对算力的需求同样快速增长,但特点与训练有所不同。推理更注重低延迟、高并发和能效比。在实际应用中,大模型推理需要同时服务大量用户,对并发处理能力提出高要求;在实时交互场景,如智能客服、实时翻译等,对响应延迟极为敏感;在边缘设备和移动终端,对能耗和计算效率有严格限制。这些多样化的需求使得推理算力的优化和调度面临复杂挑战。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 15 推理算力需求的特征、增长及其挑战随着大模型应用的普及,推理算力的总需求已超过训练算力,成为算力消耗的主要部分。特别是在 AIGC、智能助手等大规模应用场景,推理算力需求呈现爆发式增长。Gartner 预测 2025 年生成式 AI 支出将达 6440 亿美元,其中约 80%用于 AI 硬件,主要用于推理场景。如何高效满足海量推理请求,同时保证服务质量和成本效益,成为算力基础设施面临的重要课题。2.2.2 算力墙、存储墙、通信墙算力墙、存储墙、通信墙在大模型训练过程中,三堵墙算力墙、存储墙和通信墙成为制约性能的主要瓶颈。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 16 算力墙指的是单卡算力上限的限制,即使是最先进的 GPU 芯片,其计算能力也难以满足大模型训练的需求,必须通过大规模集群扩展算力。然而,随着模型规模的增长,单纯增加计算单元的效果递减,算力墙问题日益突出。存储墙主要体现在内存带宽和容量的限制上。大模型参数量巨大,万亿参数模型需要数百 GB 到数 TB 的内存容量,而当前 AI 加速器的内存容量和带宽往往成为瓶颈。研究表明,AI 训练未来的瓶颈可能不是算力,而是 GPU 内存,内存墙问题已成为制约大模型发展的关键因素。数据加载、参数交换等内存密集型操作往往成为训练过程中的性能瓶颈。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 17 通信墙则是指集群网络通信开销的限制。大模型并行训练需要大量节点间通信,如 AllReduce 梯度同步、AlltoAll 参数交换等,通信性能直接决定训练效率。无论是芯片内部、芯片间,还是 AI 加速器之间的通信,都已成为 AI 训练的瓶颈。扩展带宽的技术难题尚未被完全攻克,过去 20 年间,运算设备的算力提高了90,000 倍,而互连带宽仅提高了 30 倍,通信墙问题日益严峻。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 18“通信墙”作为大模型训练的限制因素,对比算力与带宽增长的速度差异2.2.3 算力成本与能效挑战算力成本与能效挑战大模型训练和推理的高算力需求带来了巨大的成本压力。前沿模型的训练成本从 2020 年的 450 万美元增长到 2025 年的 3 亿美元以上,增长了约 66 倍。推理成本虽然相对较低,但随着应用规模的扩大,总体成本仍然可观。高昂的算力成本成为大模型技术普及和应用落地的重要障碍,特别是对于中小企业和科研机构而言。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 19 大模型训练和推理成本的快速增长,以及高算力需求带来的成本压力数据中心能耗与双碳目标之间的矛盾日益凸显。算力需求呈指数级增长趋势,带来了数据中心能耗、成本以及碳排放的不断攀升。在双碳目标约束下,算电协同(算力与电力协同优化)正成为破解 AI 能耗困局、实现数据中心绿色可持续发展的关键路径。液冷技术作为降低数据中心能耗的重要手段,比传统电制冷节能 20%-30%,正得到广泛应用。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 20 数据中心能耗与“双碳”目标之间的矛盾,以及算电协同、液冷技术和能效比提升实现绿色算力的解决方案能效比成为衡量算力基础设施的重要指标。传统的以性能为中心的设计理念正在向以能效为中心转变,绿色算力成为行业发展的重要趋势。液冷技术、可再生能源应用、算力调度优化等节能技术得到广泛应用,数据中心 PUE(PowerUsage Effectiveness)值不断降低。同时,芯片能效比(TOPS/W)的提升也成为AI 芯片设计的重要目标,通过架构创新、制程工艺优化等手段,在提升算力的同时降低能耗。2.3 国内外算力基础设施对比国内外算力基础设施对比2.3.1 全球算力规模与分布全球算力规模与分布AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 21 中国智能算力规模增长预测及全球 AI 服务器市场展望根据最新数据,截至 2025 年 6 月,中国在用算力中心标准机架达 1085 万架,智能算力规模达 788EFLOPS(FP16 半精度),算力总规模位居全球第二。IDC预测,2025年中国智能算力规模将达到1,037.3 EFLOPS,并在2028年达到2,781.9EFLOPS,2023-2028 年中国智能算力规模五年年复合增长率达 43%。全球 AI 服务器市场预计到 2025 年将达到 3,000 亿美元,年增长 46.1%。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 22 全球算力地域分布与中国面临的挑战从地域分布来看,美国在高端芯片和算力基础设施方面仍占据主导地位,拥有最先进的 AI 芯片制造能力和大规模的算力集群。按照近 6 年 AI 服务器算力总量估算,美国和中国算力全球占比分别为 34%和 33%。中国在算力规模上已位居全球第二,但在高端芯片、核心软件等方面与国际先进水平仍有差距。特别是在先进制程芯片方面,受制于技术封锁和供应链限制,中国在高端 AI 芯片领域面临挑战,这也促使中国加速自主研发和替代进程。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 23 全球算力结构转型:从通用计算到智能计算从算力结构来看,全球算力正从通用计算向智能计算加速转变。传统以 CPU为中心的通用计算架构难以满足 AI 工作负载的需求,以 GPU、TPU、NPU 等专用 AI 加速器为核心的智能计算成为主流。这种转变不仅体现在硬件层面,也反映在系统架构、编程模型、软件生态等各个方面,推动整个计算产业的重构。2.3.2 国内智算中心建设国内智算中心建设我国智算中心建设近年来取得了显著进展。中国已初步形成 1ms 时延城市算力网、5ms 时延区域算力网、20ms 时延跨国家枢纽节点算力网,算力网络建设成效显著。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 24 东数西算工程进展与协同发展在智算中心建设方面,国家新一代 AI 公共算力开放创新平台相继建成,为AI 研发和应用提供了强大的算力支撑。各地智算中心建设如火如荼,形成了覆盖全国的算力基础设施网络。2025 中国算力大会上,中国算力平台全面贯通,标志着一个国家级算力调度和管理体系的基本建成。从技术架构看,国内智算中心普遍采用异构计算架构,支持 CPU、GPU、国产 AI 芯片等多种计算单元,实现一云多芯的技术路线。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 25 智算中心建设与技术架构2.3.3 政策支持与地方实践政策支持与地方实践国家层面出台了一系列政策支持算力基础设施发展。2025 年,国务院关于深入实施人工智能 行动的意见提出强化智能算力统筹。国家数据局统筹推进算力基础设施建设,推动算力资源的优化配置和高效利用。2023 年 12 月,国家五部委联合印发深入实施东数西算工程加快构建全国一体化算力网的实施意见,从五大方面统筹推进算力网建设:通用算力、智能算力、超级算力一体化布局,东中西部算力一体化协同,算力与数据、算法一体化应用,算力与绿色电力一体化融合,算力发展与安全保障一体化推进。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 26 地方政府也积极响应国家战略,出台了一系列支持政策。各地通过智算中心补贴、电价优惠、开放平台等措施,吸引算力相关企业和项目落地。例如,一些地区对新建智算中心给予土地、税收等方面的优惠;一些地区通过算力券等方式,降低中小企业使用算力的成本;一些地区则重点支持算力应用创新,推动算力与产业深度融合。在地方实践中,形成了各具特色的发展模式。一些地区依托丰富的可再生能源资源,发展绿色算力;一些地区则结合本地产业特点,建设行业专用智算中心;一些地区注重算力与网络的协同发展,构建算力网络体系。这些多样化的实践探索,为中国算力基础设施的高质量发展提供了宝贵经验。产业层面,企业、资本、开发者多方参与生态构建。国内 AI 芯片市场参与者主要有英伟达 H20、华为昇腾系列、寒武纪思元系列、海光信息 DCU 系列等。2025 年,华为首次展出昇腾 384 超节点真机,其算力总规模达 300PFLOPS,展AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 27 现了国产 AI 算力的技术实力。寒武纪、壁仞、燧原、沐曦和摩尔线程等国产 AI芯片厂商也各具特色,共同推动国产异构算力生态的繁荣发展。2.4 异构算力成为主流趋势异构算力成为主流趋势2.4.1 异构计算定义与分类异构计算定义与分类异构计算是指在同一计算系统集成不同类型或架构的处理单元,以便更有效地执行不同类型的任务。随着 AI 大模型对算力需求的多样化,单一架构的计算单元难以满足所有需求,异构计算通过组合不同特性的计算单元,实现整体性能的最优化。根据组合方式的不同,异构计算主要分为三类:CPU GPU、CPU FPGA和 CPU ASIC。异构计算概述及其三大主要类型CPU GPU 是最常见的异构计算组合,CPU 负责通用计算和任务调度,GPU负责大规模并行计算。这种组合充分利用了 GPU 在并行计算方面的优势,适合大模型训练等计算密集型任务。CPU FPGA 组合则利用 FPGA 的灵活可编程特性,适合需要定制化加速的场景,如特定算法的硬件加速。CPU ASIC 组合则针对特定应用进行深度优化,如 TPU(Tensor Processing Unit)专门用于加速TensorFlow 计算,能效比极高。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 28 从异构计算到超异构计算的演进与优势超异构计算是异构计算的进一步发展,由 CPU、GPU、FPGA 和 DSA(Domain-Specific Architecture)多架构处理器组成,目标是接近 CPU 的灵活性和 ASIC 的性能效率。超异构计算架构通过更加精细的任务划分和专用加速,实现更高性能和能效,成为未来计算架构的重要发展方向。2.4.2 异构算力在大模型场景优势异构算力在大模型场景优势异构算力在大模型场景中展现出显著优势:AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 29 一、不同类型的计算单元擅长大模型不同环节,GPU 在大规模并行计算方面表现优异,适合大模型训练;ASIC 在特定任务上能效比极高,适合推理加速;FPGA 则具有灵活可编程的特性,能够适应不断变化的算法需求。通过异构计算架构,可以将不同类型的计算任务分配给最适合的处理单元,从而实现整体性能的最优化。二、异构调度能够显著提升资源利用率,降低总体成本。在实际应用中,大模型的工作负载往往呈现多样化特征,既有计算密集型的训练任务,也有延迟敏感型的推理任务,还有 IO 密集型的数据处理任务。异构算力通过智能调度,将不同类型的任务分配给最适合的计算资源,避免资源闲置和浪费,提高整体资源利用率。研究表明,合理的异构调度可以将资源利用率提升 30%以上,显著降低算力成本。三、异构算力提供了更好的扩展性和灵活性。随着大模型技术的快速发展,新的算法和模型结构不断涌现,对算力的需求也在不断变化。异构算力架构通过多种计算单元的组合,能够更好地适应这种变化,为新算法和新模型提供支持。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 30 同时,异构算力也支持渐进式的升级和扩展,企业可以根据需求逐步增加或更新计算资源,降低技术升级的成本和风险。四、异构算力有助于降低能耗,实现绿色计算。不同类型的计算单元在能效比方面各有优势,通过异构调度,可以将任务分配给能效比最高的计算单元,从而降低整体能耗。特别是在推理场景,ASIC 和 FPGA 等专用计算单元的能效比往往远高于通用计算单元,能够显著降低推理过程的能耗。在全球双碳目标下,异构算力的这一优势具有重要意义。三、异构算力技术架构与核心组件三、异构算力技术架构与核心组件3.1 异构计算硬件体系异构计算硬件体系3.1.1 主流主流 AI 芯片对比芯片对比异构计算硬件体系由多种类型的计算单元组成,主要包括 CPU、GPU、FPGA、ASIC 等,各具特点,适用于不同的应用场景。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 31 CPU(中央处理器)作为通用计算单元,具有强大的逻辑控制和任务调度能力,适合处理复杂的串行任务和多样化的工作负载。然而,在 AI 计算场景下,CPU 的并行计算能力相对有限,能效比较低。现代 CPU 通常集成多个核心,支持 SIMD(单指令多数据)指令集,如 AVX-512 等,在一定程度上提升了 AI 计算性能,但与专用 AI 加速器相比仍有差距。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 32 GPU(图形处理器)最初为图形渲染设计,因其强大的并行计算能力而成为AI 训练和推理的主流选择。GPU 拥有数千个计算核心,适合执行大规模并行计算任务,特别是在矩阵运算、卷积运算等 AI 核心算法上表现优异。然而,GPU功耗较高,成本昂贵,且在某些特定算法上效率不如专用芯片。在能效比方面,GPU 优于 CPU 但不及 FPGA 和 ASIC。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 33 FPGA(现场可编程门阵列)具有硬件可重构的特点,用户可以根据特定应用需求定制硬件逻辑,实现高度优化的计算加速。FPGA 在能效比和灵活性方面具有优势,特别适合需要定制化加速的场景。然而,FPGA 开发复杂度高,需要专业的硬件设计知识,且运行频率相对较低,在大规模部署时面临挑战。与GPU/CPU 相比,FPGA 采用软件定义的硬件架构,硬件逻辑可根据需求动态调整,而 GPU/CPU 硬件固定,其并行性设计是适应固定硬件的。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 34 ASIC(专用集成电路)针对特定应用进行优化,在能效比和性能方面表现最佳。AI 领域的 ASIC 如 TPU、NPU 等,针对深度学习算法特点进行专门优化,实现了极高的计算密度和能效比。然而,ASIC 缺乏通用性,开发成本高,周期长,适合大规模、固定场景的应用。从能耗比方面来看,ASIC FPGA GPU CPU,产生这样结果的根本原因是:对于计算密集型算法,数据的搬移和运算效率越高的能耗比就越高。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 35 在大模型场景下,不同芯片各有所长:GPU 适合大规模并行训练,ASIC 适合高能效推理,FPGA 适合特定算法加速,CPU 适合任务调度和控制。异构计算架构通过合理组合这些不同类型的计算单元,可以充分发挥各自优势,实现整体系统性能的最优化。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 36 从性能功耗比来看,ASIC 作为定制芯片表现最优,GPU 次之,FPGA 再次之,CPU 最低。但从灵活性和开发难度来看,则正好相反。在实际的异构计算系统中,通常采用 CPU GPU 的组合用于通用 AI 训练,CPU FPGA 的组合用于需要定制化加速的场景,CPU ASIC 的组合则用于大规模推理部署。这种多样化的硬件组合,为不同场景下的 AI 计算提供了最优解决方案。3.1.2 国产国产 AI 芯片技术路线芯片技术路线国产 AI 芯片近年来取得了显著进展,形成了多元化的技术路线和产品体系。主要厂商包括寒武纪、华为昇腾、海光、壁仞、燧原、沐曦、摩尔线程等,各自推出了具有特色的 AI 芯片产品。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 37 寒武纪 AI 芯片技术路线寒武纪作为国内 AI 芯片的领军企业,专注于人工智能芯片产品的研发与技术创新,提供云边端全场景 AI 芯片产品。云端产品线包括思元 290、思元 370等,其中思元 370 达到 256TOPS INT8 算力;边缘端产品线包括 MLU220 系列,提供低功耗、高实时性的 AI 加速能力;终端产品线包括智能处理器 IP,授权给终端设备厂商使用。寒武纪采用自研 DSA 计算架构,与特斯拉 DOJO 的存算一体架构和壁仞科技的近存架构形成不同的技术路线。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 38 华为昇腾 AI 芯片与全栈解决方案华为昇腾系列芯片包括昇腾 910 和昇腾 310 等,其中昇腾 910 是面向训练的高性能 AI 芯片,昇腾 310 主要面向推理场景。昇腾芯片采用达芬奇架构,支持3D Cube 计算引擎,在 AI 计算性能方面具有竞争力。华为还推出了 MindSporeAI框架,与昇腾芯片深度协同,形成了全栈 AI 解决方案。昇腾芯片在鹏城云脑 II、武汉人工智能计算中心等大集群实践中得到广泛应用。海光 DCU 系列是基于 GPGPU 架构的 AI 加速器,兼容 CUDA 生态,降低了用户迁移成本。海光 DCU 产品深算一号在通用计算和 AI 计算方面表现均衡,特别适合科学计算与 AI 融合的应用场景。壁仞 BR100 系列采用近存计算架构,在计算密度和能效比方面具有创新,是国内高端 AI 芯片的代表之一。燧原科技、沐曦集成电路、摩尔线程等新兴 AI 芯片企业也各具特色。燧原科技推出邃思系列 AI 芯片,采用自研的 GCU 架构;沐曦集成电路专注于高性能 GPU 研发;摩尔线程则面向图形计算和 AI 计算融合场景。这些企业的创新推AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 39 动着国产 AI 芯片技术的多元化发展。国产 AI 芯片技术路线分类国产 AI 芯片在指令集、制程工艺、算力指标、生态兼容性等方面各有特点。在指令集方面,多数厂商采用自研指令集,以实现更好的性能优化;在制程工艺方面,普遍采用 7nm、5nm 等先进工艺;在算力指标方面,高端产品已接近国际领先水平;在生态兼容性方面,通过支持主流 AI 框架、提供迁移工具等方式,降低开发者使用门槛。从技术路线来看,国产 AI 芯片主要分为三类:一是以寒武纪为代表的 NPU路线,专注于神经网络处理;二是以华为昇腾为代表的达芬奇架构路线,强调3D Cube 计算技术;三是以壁仞为代表的类 GPU 路线,兼容 CUDA 生态。这些不同的技术路线反映了国产 AI 芯片在追赶国际先进水平过程中的多元化探索。3.1.3 芯片性能与能效评测芯片性能与能效评测AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 40 AI 芯片的性能和能效评测涉及多个关键指标,包括 TOPS/W(每瓦特万亿次运算)、算力利用率、内存带宽等,这些指标综合反映了芯片在实际应用中的表现。TOPS(Tera Operations Per Second)是衡量 AI 芯片算力的核心指标,表示芯片每秒可执行的万亿次操作数。然而,理论 TOPS 值并不能完全反映实际性能,还需要考虑算力利用率,即实际达到的算力与理论峰值的比例。影响算力利用率的因素包括算法特性、数据依赖性、内存带宽限制等。在实际评测中,需要通过标准基准测试套件,如 MLPerf、AI Benchmark 等,来衡量芯片在典型 AI 任务上的实际性能。能效比(TOPS/W)是衡量 AI 芯片能效的关键指标,表示每瓦特功耗可提供的算力。随着数据中心能耗问题的日益突出,能效比成为芯片设计的重要目标。不同类型芯片的能效比差异显著:ASIC 通常能达到最高的能效比,FPGA 次之,GPU 再次之,CPU 最低。在实际应用中,需要综合考虑性能和能效,选择最适合的芯片类型。内存带宽是影响 AI 芯片性能的另一关键因素。大模型训练和推理涉及大量数据移动,内存带宽往往成为性能瓶颈。现代AI芯片普遍采用高带宽内存(HBM、GDDR 等)来提升内存带宽,如寒武纪 MLU370-X8 搭载 MLU-Link 多芯互联技术,每张加速卡可获得 200GB/s 的通讯吞吐性能。在实际评测中,需要关注理论内存带宽和有效内存带宽的差异,以及内存子系统对整体性能的影响。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 41 算力利用率及其影响因素除 了 上 述 指 标 外,AI芯 片 评 测 还 需 考 虑 支 持 精 度(FP32/FP16/BF16/INT8/INT4 等)、编程模型友好度、生态成熟度等因素。支持精度决定了芯片在不同精度计算任务上的适用性;编程模型友好度影响开发效率;生态成熟度则关系到芯片的实际应用前景。在国产芯片与国际标杆的对比中,寒武纪 MLU370、昇腾 910B 等国产芯片在算力指标上已接近 NVIDIAA100/H100 的水平,但在软件生态、编程模型等方面仍有差距。随着技术的不断进步和生态的持续完善,国产 AI 芯片的性能和能效将进一步提升,为大模型训练和推理提供强有力的硬件支撑。3.2 高速互联与网络架构高速互联与网络架构3.2.1 高速互联技术高速互联技术AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 42 高速互联技术在异构算力系统中的关键作用高速互联技术是异构算力系统的关键组成部分,直接影响系统的整体性能和扩展能力。在大模型训练和推理场景中,高效的高速互联技术能够显著提升系统性能,降低通信延迟,提高资源利用率。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 43 PCIe 和 CXL 技术概览PCIe(Peripheral Component Interconnect Express)是计算机系统中广泛使用的高速互联标准,目前主流的是 PCIe 5.0,正在向 PCIe 6.0 发展。PCIe 5.0 提供32GT/s 的传输速率,x16 配置下可提供约 64GB/s 的带宽,满足大多数 AI 加速卡的互联需求。PCIe 6.0 进一步将传输速率提升至 64GT/s,并引入 PAM4 调制技术,在相同物理层下实现带宽翻倍。PCIe 5.0/6.0 已成为 AI 加速器与主机系统互联的主流选择,为 AI 计算提供高带宽、低延迟的数据传输通道。CXL(Compute Express Link)是基于 PCIe 物理层的新型互联协议,旨在提高 CPU 与专用加速器之间的互联效率。CXL 协议保留并拓展了 PCIe 的兼容性,只要使用 PCIe 5.0 及以上版本且支持 CXL 的设备均可通过 CXL 实现高速互联。CXL 支持三种协议:CXL.io(基础 I/O 协议)、CXL.cache(缓存一致性协议)和 CXL.mem(内存访问协议),能够实现 CPU 与加速器之间的高效内存共享和缓存一致性,特别适合异构计算场景。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 44 NVLink 和 RoCEv2 技术概览NVLink 是 NVIDIA 专有的高速 GPU 互联技术,与传统的 PCIe 相比,能为更多 GPU 系统提供更快速的替代方案。NVLink 技术通过连接多个 NVIDIA 显卡,能够实现显存池化和高速数据交换,大幅提升多 GPU 系统的性能。最新的NVLink 技术提供高达 900GB/s 的带宽,是 PCIe 5.0 的 14 倍以上,特别适合大模型训练等需要大量 GPU 间通信的场景。RoCEv2(RDMAover Converged Ethernet version 2)是基于以太网的 RDMA(远程直接内存访问)技术,在标准以太网上实现低延迟、高吞吐的数据传输。RoCEv2 支持拥塞控制和流量控制,能够在不增加专用网络设备的情况下提供接近 InfiniBand 的性能。在大规模 AI 集群中,RoCEv2 因其成本优势和标准化特性,成为广泛选择的高速互联技术。这些高速互联技术在带宽、延迟、扩展性等方面各有特点。PCIe 提供通用互联,CXL 增强内存一致性,NVLink 提供超高带宽 GPU 互联,RoCEv2 实现标准以太网上的 RDMA。在实际系统设计中,需要根据应用场景和性能需求,选择合适的高速互联技术,构建高效的异构算力系统。3.2.2 智算中心网络拓扑智算中心网络拓扑AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 45 大规模 AI 集群网络拓扑概述智算中心网络拓扑设计直接影响大规模 AI 集群的性能和扩展能力。在大模型训练场景中,特别是万卡甚至十万卡集群,合理的网络拓扑设计对于降低通信延迟、提高网络吞吐、实现负载均衡至关重要。CLOS 三层架构是目前大规模数据中心网络的主流拓扑结构,包括核心层、汇聚层和接入层。CLOS 架构具有无阻塞、高可扩展性的特点,能够有效支持大规模服务器集群的互联。在 AI 集群中,CLOS 架构通常配合 ECMP(等价多路径)路由,实现负载均衡和故障容错。CLOS 架构的扩展性好,可以通过增加交换机数量和端口密度来线性扩展网络容量,适合大规模 AI 集群的部署。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 46 主流网络拓扑结构对比Fat-Tree 是 CLOS 架构的一种特例,采用完全对称的设计,所有路径具有相同的带宽和延迟。Fat-Tree 拓扑在 AI 集群中得到广泛应用,特别是在需要高带宽、低延迟通信的大模型训练场景中。Fat-Tree 网络的优点是带宽保证、无阻塞、易于管理,但缺点是成本较高,交换机数量多。在实际部署中,通常采用折叠式Fat-Tree(Folded Fat-Tree)设计,减少交换机数量,降低成本。Dragonfly 是一种高维网络拓扑,通过高维连接实现节点间的高效通信。Dragonfly 拓扑在超级计算机中得到广泛应用,近年来也开始应用于大规模 AI集群。Dragonfly 网络的优点是直径小、平均跳数少、扩展性好,适合超大规模集群的部署。然而,Dragonfly 拓扑的路由和拥塞控制较为复杂,需要专门的算法支持。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 47 万卡集群网络设计中,如何综合考虑 P2P 延迟与吞吐优化,以及在实际部署中需要考虑的多种因素在万卡集群网络设计中,需要综合考虑 P2P 延迟与吞吐优化。P2P 延迟直接影响大模型训练中的梯度同步效率,而吞吐则影响数据加载和模型参数交换的速度。为了优化 P2P 延迟,通常采用层次化网络设计,将物理上临近的节点组织在同一子网中,减少跨子网通信;为了优化吞吐,通常采用多路径负载均衡、流量调度等技术,充分利用网络带宽。在实际部署中,智算中心网络拓扑设计需要考虑多个因素:集群规模、通信模式、成本预算、管理复杂度等。对于中小规模集群,通常采用简单的二层或三层 CLOS 架构;对于大规模集群,可能需要更复杂的拓扑结构,如 Dragonfly 或其变种。此外,网络拓扑设计还需要与机柜布局、线缆管理、散热设计等物理设施相协调,实现整体系统的最优化。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 48 3.2.3 集群通信优化集群通信优化集群通信优化是大模型分布式训练的关键技术,直接影响训练效率和扩展性。在大规模 AI 集群中,节点间的通信开销往往成为性能瓶颈,因此需要通过高效的通信原语和优化技术来降低通信开销,提高训练效率。集群通信优化概览-分布式训练的性能瓶颈与解决方案AllReduce 是最常用的通信原语之一,用于数据并行训练中的梯度同步。AllReduce 操作将所有节点的数据聚合后广播给所有节点,实现全局梯度的一致性。AllReduce 可以通过先进行 ReduceScatter 操作,然后进行 AllGather 操作来实现:ReduceScatter 操作首先聚合数据,然后将结果分散,这样每个成员仅持有聚合结果的一部分;AllGather 操作则将各部分结果收集到所有节点,形成完整的结果。AllReduce 通过组合操作,成为数据并行训练的核心通信原语。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 49 核心通信原语-AllReduce 与 All2AllAll2All(All-to-All)是另一种重要的通信原语,在模型并行训练中广泛应用。All2All 操作实现全局数据的重新分布,每个节点向所有其他节点发送数据,同时从所有其他节点接收数据。在张量并行和流水线并行中,All2All 通信用于参数和激活值的交换,是实现模型并行的基础。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 50 Reduce-Scatter 与通信优化技术Reduce-Scatter 是平衡显存与通信的重要原语,为 ZeRO 等显存优化技术奠定基础。Reduce-Scatter 操作首先聚合数据,然后将结果分散到各个节点,每个节点仅持有聚合结果的一部分。这种操作可以有效减少单节点的内存占用,同时控制通信开销。为了进一步提高通信效率,业界提出了多种优化技术。SHARP(ScalableHierarchicalAggregation and Reduction Protocol)技术通过在网络设备中执行聚合操作,减少数据在节点间的传输量,显著提高分布式深度学习工作负载的可扩展性和性能。NVLS 与 CollNet 是专为优化 AllReduce 性能设计的特殊算法,其中NVLS 还通过利用特定硬件能力支持 ReduceScatter 和 AllGather 操作。在实际应用中,NVIDIA 集合通信库(NCCL)提供了高性能、拓扑感知型集合运算:AllReduce、Broadcast、Reduce、AllGather 和 ReduceScatter,这些运算已针对 NVIDIA 硬件进行了深度优化。NCCL 经过优化,可将关键的集合通信操作分流到网络,从而充分利用 SHARP,显著提高分布式深度学习工作负载的可AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 51 扩展性和性能。集群通信优化的系统性方法集群通信优化还需要考虑网络拓扑感知、通信计算重叠、异步通信等技术。网络拓扑感知根据实际网络拓扑优化通信路径,减少跨交换机通信;通信计算重叠通过流水线技术,将通信与计算重叠执行,隐藏通信延迟;异步通信则允许计算任务在通信进行时继续执行,提高资源利用率。在大规模 AI 集群中,集群通信优化是一个系统工程,需要硬件、网络、软件、算法等多层面的协同优化。随着集群规模的不断扩大和模型复杂度的持续增加,集群通信优化将成为异构算力系统设计的关键挑战和研究热点。3.3 存储与数据管理存储与数据管理3.3.1 大模型存储需求大模型存储需求AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 52 大模型训练和推理对存储系统提出了极高的要求,包括存储容量、带宽、IOPS 等多个方面。随着模型参数规模的不断扩大和数据量的爆炸式增长,存储系统已成为大模型训练的重要瓶颈之一。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 53 在存储容量方面,大模型训练涉及的数据集规模可达 TB 级,模型参数本身也需要 GB 级甚至 TB 级的存储空间。以千亿参数大模型为例,仅模型参数就需要数百 GB 的存储空间(假设每个参数为 16 位浮点数)。在训练过程中,还需要存储梯度、优化器状态、中间激活值等,进一步增加了存储需求。对于推理场景,虽然不需要存储训练相关数据,但模型参数和缓存(如 KVCache)仍需要大量存储空间。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 54 在存储带宽方面,大模型训练需要高带宽的存储系统来支持数据的高效加载。训练过程中的数据加载、参数交换、梯度同步等操作都需要高存储带宽支持。特别是在数据并行训练中,每个节点都需要独立加载数据,对存储系统的聚合带宽要求极高。存储带宽不足会导致计算资源闲置,降低训练效率。在 IOPS(每秒输入/输出操作数)方面,大模型训练通常涉及大量小文件的随机访问,如数据预处理、检查点保存/恢复等操作,需要高 IOPS 的存储系统支持。特别是在分布式训练中,多个节点同时访问存储系统,对 IOPS 的要求呈倍数增长。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 55 大模型存储需求还体现在数据多样性上。训练数据通常包括文本、图像、音频、视频等多种模态,每种数据类型对存储系统的要求各不相同。文本数据通常体积小但数量多,需要高 IOPS;图像和视频数据体积大,需要高带宽;结构化数据则需要低延迟的随机访问能力。为了满足大模型存储需求,存储系统需要具备以下特性:高容量、高带宽、高 IOPS、低延迟、可扩展性、可靠性等。在实际系统设计中,通常采用分层存储架构,将热数据存储在高性能存储介质(如 NVMe SSD)上,冷数据存储在大容量存储介质(如 HDD)上,实现成本与性能的平衡。3.3.2 分布式存储技术分布式存储技术分布式存储技术是满足大模型存储需求的关键,通过将数据分散存储在多个节点上,实现存储容量的线性扩展和性能的并行提升。在大模型训练场景中,分布式存储技术需要解决数据分片、缓存、预取等关键问题。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 56 主流分布式存储技术对比,聚焦 Lustre、GPFS 和 Ceph 的特点和适用场景Lustre 是一种高性能并行文件系统,广泛应用于 HPC 和大规模 AI 训练场景。Lustre 采用元数据服务器(MDS)和对象存储服务器(OSS)分离的架构,支持 PB 级存储容量和数百 GB/s 的聚合带宽。Lustre 的优势在于高性能、高可扩展性,特别适合大文件顺序读写场景,如大模型训练中的数据加载。然而,Lustre 在小文件处理和元数据操作方面相对较弱,需要配合其他技术使用。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 57 Lustre 的架构和优势GPFS(General Parallel File System,现称 IBM Spectrum Scale)是 IBM 开发的高性能分布式文件系统,支持多种存储架构和访问协议。GPFS 采用共享磁盘架构,通过分布式锁管理机制实现数据一致性,支持高并发访问。GPFS 的优势在于全面的特性支持、良好的小文件性能和强大的管理功能,适合复杂的企业级AI 训练环境。Ceph 是一种统一的分布式存储系统,支持块存储、对象存储和文件存储三种接口,被称为统一存储。Ceph 采用 CRUSH 算法实现数据分布,无需中心化的元数据服务器,具有良好的可扩展性和容错性。Ceph 的优势在于统一架构、自修复能力和成本效益,适合需要多种存储接口的 AI 平台。然而,Ceph 在性能方面通常不如专用的并行文件系统,特别是在低延迟场景下。除了上述主流分布式存储技术外,还有一些针对 AI 场景优化的存储解决方案。例如,Alluxio 严格来说不是一个文件系统,而是构建在其他分布式文件系统之上的分布式缓存系统,在大数据领域使用非常广泛。Alluxio 通过内存缓存加速数据访问,特别适合多次迭代的 AI 训练场景。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 58 分布式存储技术选择的关键考量因素和混合存储架构的理念在大模型训练中,分布式存储技术的选择需要考虑多个因素:数据访问模式、性能需求、成本预算、管理复杂度等。对于大规模顺序访问为主的训练场景,Lustre 是理想选择;对于需要多种存储接口的复杂环境,Ceph 提供统一解决方案;对于企业级关键应用,GPFS 提供全面的特性支持。在实际部署中,通常采用混合存储架构,结合不同存储技术的优势,构建最适合大模型训练的存储系统。3.3.3 数据预处理与加载数据预处理与加载AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 59 数据预处理与加载是大模型训练流程中的重要环节,直接影响训练效率和模型质量。高效的数据预处理与加载技术能够最大化计算资源利用率,减少 I/O 等待时间,提高整体训练吞吐量。数据预处理包括数据清洗、增强、格式转换等多个步骤。数据清洗主要处理原始数据中的噪声、缺失值、异常值等问题,确保训练数据的质量;数据增强通过旋转、裁剪、翻转、颜色变换等技术扩充训练数据集,提高模型的泛化能力;格式转换则将不同来源、不同格式的数据统一为模型训练所需的格式,如TensorFlow 的 TFRecord、PyTorch 的 Dataset 等。数据加载是将预处理后的数据高效传输到计算设备(如 GPU)内存中的过程。在大模型训练中,数据加载往往成为性能瓶颈,特别是在分布式训练场景中,多个计算节点同时加载数据,对存储系统和网络带宽提出极高要求。为了优化数据加载效率,通常采用以下技术:AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 60 流水线并行(Pipeline Parallelism)是一种常用的数据加载优化技术,将数据读取、数据预处理计算、以及芯片上的模型计算三个步骤异步并行执行。这三步构成了典型的数据生产者和数据消费者的上下游关系,通过流水线技术可以隐藏I/O 延迟,提高资源利用率。MindSpore 等框架提供了灵活的数据集加载方法、丰富的数据处理操作,以及自动数据增强、动态批处理等功能,支持高效的数据流水线。异步加载是另一种重要的优化技术,使用多个进程来并行加载和预处理数据,通过流水线处理减少数据等待时间。在异步加载模式下,数据加载进程与计算进程并行执行,计算进程在处理当前批次数据时,数据加载进程已经在准备下一批次数据,从而隐藏数据加载延迟。PyTorch 的 DataLoader、TensorFlow 的 tf.data等 API 都支持异步加载模式。预取(Prefetching)技术通过预测未来需要的数据,提前将其加载到内存或缓存中,减少数据访问延迟。预取技术可以与缓存技术结合使用,将频繁访问的数据保存在高速存储介质中,进一步提高数据访问效率。在大模型训练中,常用的预取策略包括基于访问模式的预取、基于训练进度的预取等。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 61 分布式数据加载是大规模分布式训练中的关键技术,通过将数据分片存储在多个节点上,实现数据加载的并行化。在数据并行训练中,每个节点负责加载和处理数据的一个子集,通过 AllReduce 等通信原语实现梯度同步。分布式数据加载需要解决数据分片、负载均衡、容错等问题,确保每个节点都能高效获取所需数据。在实际应用中,数据预处理与加载的优化需要综合考虑数据特性、硬件配置、训练框架等多个因素。通过合理选择和组合上述技术,可以构建高效的数据流水线,最大化计算资源利用率,提高大模型训练的整体效率。四、大模型与异构算力融合关键技术四、大模型与异构算力融合关键技术4.1 软硬件协同优化软硬件协同优化4.1.1 算子融合与指令优化算子融合与指令优化算子融合与指令优化是软硬件协同优化的核心技术,通过将多个计算操作合并为一个更大的操作,减少内存访问次数,提高计算密度,从而显著提升 AI 计算效率。在大模型训练和推理场景中,算子融合技术已成为性能优化的关键手段。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 62 算子融合和指令优化算子融合的核心思想是将多个连续的算子合并为一个更大的融合算子,减少中间结果的内存读写,降低内存带宽压力。以 FlashAttention 为例,其加速原理非常简单,就是更多地去利用带宽更高的上层存储单元,减少对低速下层存储单元的访问频率,从而达到加速的目的。在传统的注意力计算中,需要多次读写显存来存储中间结果,而 FlashAttention 通过算子融合技术,将多个计算步骤合并,大幅减少了内存访问次数,显著提升了计算效率。指令优化是另一种重要的软硬件协同优化技术,通过针对特定硬件架构设计高效的指令集,提高计算密度和能效比。寒武纪 MLU 指令集就是专门针对 AI计算优化的指令集,支持张量运算、矩阵运算等 AI 核心操作,相比通用指令集具有更高的计算效率。指令优化需要深入理解硬件架构特点,设计能够充分利用硬件计算能力的指令序列,同时考虑数据局部性和内存访问模式,实现最优的性能表现。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 63 算子融合细节在实际应用中,算子融合与指令优化通常结合使用,形成完整的优化方案。以寒武纪 BANG 算子库为例,它不仅提供了丰富的融合算子,还针对 MLU 硬件架构进行了深度指令优化,实现了算子层面的极致性能。通过 Relay 导入推理模型,进行算子融合等图层优化,通过 TIR 生成融合算子,最终形成针对特定硬件的高效执行代码。算子融合与指令优化的效果在大模型场景中尤为显著。大模型通常包含大量的矩阵运算、注意力计算等操作,这些操作通过算子融合可以大幅减少内存访问,提高计算效率。同时,大模型对计算资源的需求极高,通过指令优化可以充分利用硬件计算能力,降低单位计算的成本。在实际案例中,经过算子融合和指令优化的模型,其性能可提升数倍甚至数十倍,能效比也有显著改善。4.1.2 编译器与中间表示编译器与中间表示编译器与中间表示技术是连接 AI 模型与异构硬件的桥梁,通过多层次的中间表示和优化转换,实现模型在不同硬件平台上的高效执行。随着异构算力的普及,编译器技术在大模型与异构算力融合中扮演着越来越重要的角色。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 64 编译器技术在大模型与异构算力融合中的核心作用和发展趋势MLIR(Multi-Level Intermediate Representation)是一种新兴的多级中间表示框架,支持不同抽象层次的 IR 定义和转换。MLIR 的架构设计原理包括可扩展的方言系统、类型系统、属性系统等,允许在不同抽象层次上定义和优化计算图。MLIR 不仅是一种中间表示,更是一个编译器框架,支持从高级计算图到底层硬件指令的全流程优化。在大模型编译中,MLIR 可以实现从计算图优化到硬件代码生成的无缝衔接,为异构算力提供统一的编译支持。TVM(Tensor Virtual Machine)是面向深度学习的模型编译器,用户可直接获得编译/优化模型为推理 blob 的能力,可以看做机器学习时代的 GCC。TVM支持多种前端框架(TensorFlow、PyTorch、MXNet 等)和多种后端硬件(CPU、GPU、AI 加速器等),通过统一的中间表示(Relay IR)和优化 passes,实现模型的高效编译和部署。TVM 的自动调优功能(AutoTVM)可以针对特定硬件自动生成最优的计算算子,大幅提升模型执行效率。XLA(Accelerated LinearAlgebra)是 Google 开发的线性代数编译器,最初AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 65 旨在加速 TensorFlow 模型,现已被 JAX 等框架采用。XLA 将计算图编译为高效的机器代码,通过算子融合、内存分配优化、循环优化等技术,提升计算效率。整个编译流程先将 TensorFlow 的图转化为 XLA HLO,即一种类似高级语言的图的中间表达形式,可以基于此进行一些 High-Level 的优化。接着将 XLA HLO 翻译为 LLVM IR,进行底层优化和代码生成。MLIR、TVM、XLA 这三个主流编译器框架的架构和功能特点除了上述主流编译框架外,还有针对特定硬件的编译器,如 NVIDIA 的NVCC(NVIDIA CUDA 编译器),仅适用于 CUDA;华为的昇腾编译器,针对昇腾芯片优化等。这些编译器通常与硬件深度绑定,能够充分发挥特定硬件的性能潜力。在大模型与异构算力融合中,编译器技术面临诸多挑战:一是大模型的计算图规模庞大,编译时间和内存消耗成为瓶颈;二是异构硬件的多样性要求编译器支持多种后端;三是大模型的动态特性(如动态形状、条件计算等)增加了编译优化的复杂度。为应对这些挑战,编译器技术正在向更高效、更通用、更智能的AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 66 方向发展,如增量编译、分布式编译、机器学习辅助优化等。4.1.3 AI 框架适配框架适配AI 框架适配是连接上层应用与底层硬件的关键环节,通过插件机制、后端优化等方式,使主流 AI 框架能够高效运行在异构硬件上。随着国产 AI 芯片的快速发展,AI 框架适配技术成为构建自主可控 AI 生态的重要组成部分。PyTorch 和 TensorFlow 是目前最主流的 AI 框架,它们都提供了插件机制,支持第三方硬件的接入。在 PyTorch 框架中,可以通过注册自定义设备、算子等方式实现硬件适配;在 TensorFlow 框架中,可以通过 Pluggable Device 接口支持新的硬件设备。以昇腾 NPU 为例,华为开发了名为 torch_npu 的 Ascend Adapterfor PyTorch 插件,使得昇腾 NPU 可以与 PyTorch 框架兼容,为使用 PyTorch 框架的开发者提供了强大的昇腾 AI 处理器算力支持。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 67 主流 AI 框架的适配机制与实例适配插件开发是 AI 框架适配的核心工作,主要包括算子适配、内存管理、调度优化等方面。算子适配是将框架中的算子映射为硬件支持的操作,通常需要实现算子的前向计算、反向传播、形状推导等功能。内存管理包括内存分配、释放、复用等,需要考虑硬件的内存层次结构和访问特性。调度优化则涉及算子执行顺序、并行策略等,需要充分利用硬件的并行计算能力。自动混合精度训练是 AI 框架适配中的重要优化技术。通过自动将模型中的部分操作转换为低精度计算(如 FP16、BF16),可以显著减少内存占用和计算量,提高训练效率。现代 AI 框架如 PyTorch、TensorFlow 都提供了自动混合精度训练的支持,硬件适配层需要实现相应的低精度算子和转换逻辑。寒武纪 BANG 算子库是国产 AI 芯片框架适配的典型案例。BANG 算子库提供了丰富的 AI 计算算子,支持 TensorFlow、PyTorch、MindSpore 等主流框架,通过高效的算子实现和内存管理,充分发挥寒武纪芯片的计算能力。BANG 算子库不仅包含基础算子,还提供了针对大模型的优化算子,如注意力计算、矩阵乘法等,为大模型训练和推理提供高性能支持。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 68 AI 框架适配的挑战与未来方向AI 框架适配面临的挑战包括:一是框架版本迭代快,适配工作需要持续更新;二是框架功能复杂,全面适配工作量大;三是性能优化要求高,需要深入理解框架和硬件的内部机制。为应对这些挑战,框架适配技术正在向更自动化、更标准化、更高效的方向发展,如自动算子生成、标准化接口、分层优化等。4.2 大模型并行训练技术大模型并行训练技术4.2.1 数据并行数据并行数据并行是最常用的大模型并行训练方式,通过将训练数据分割到多个计算设备上,实现训练过程的并行化。在数据并行训练中,数据集被分割成几个碎片,每个碎片被分配到一个设备上。这相当于沿批次(Batch)维度对训练过程进行并行化。每个设备将持有一个完整的模型副本,并独立计算本地数据的梯度,然AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 69 后通过AllReduce等通信原语实现梯度同步,最终所有设备获得一致的模型更新。数据并行的概念、优势和局限性数据并行的核心优势在于实现简单、扩展性好。由于每个设备都维护完整的模型副本,不需要对模型结构进行修改,因此实现起来相对简单。同时,数据并行可以线性扩展到大量计算设备上,理论上训练速度可以随设备数量线性提升。在大模型训练的早期阶段,数据并行是最主要的并行方式。然而,数据并行也存在明显的局限性。首先是内存占用问题,每个设备都需要存储完整的模型参数、梯度和优化器状态,对于大模型而言,单设备内存往往无法容纳。其次是通信开销问题,每个训练步骤都需要进行梯度同步,当模型规模增大或设备数量增多时,通信开销会成为性能瓶颈。最后是负载均衡问题,当计算设备性能不一致时,容易出现负载不均衡的情况,影响整体训练效率。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 70 数据并行的优化技术和混合并行策略为了缓解数据并行的内存压力,业界提出了多种优化技术。ZeRO(ZeroRedundancy Optimizer)技术通过将优化器状态、梯度和参数分区存储在多个设备上,显著减少了单设备的内存占用。梯度累积技术通过累积多个小批次的梯度,模拟大批次训练的效果,可以在不增加内存占用的情况下使用更大的有效批次大小。激活检查点技术通过选择性存储和重新计算激活值,减少内存占用,但会增加额外的计算开销。在实际应用中,数据并行通常与其他并行技术结合使用,形成混合并行策略。例如,可以将模型的不同层分配到不同的设备组上,每个设备组内部采用数据并行,设备组之间采用模型并行。这种混合并行策略可以充分发挥不同并行技术的优势,实现更高效的训练。4.2.2 模型并行模型并行AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 71 模型并行是另一种重要的大模型并行训练技术,通过将模型的不同部分分配到不同的计算设备上,解决单设备无法容纳完整大模型的问题。模型并行主要分为张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)两种形式。模型并行的概述张量并行(也称为层内并行)将模型单层内的参数和计算分割到多个设备上。以矩阵乘法为例,可以将权重矩阵按行或列分割,每个设备负责一部分计算,然后通过通信合并结果。张量并行的优势是可以均匀分配计算负载,通信开销相对较小;劣势是实现复杂,需要针对不同算子设计分割策略,且通信模式复杂。流水线并行(也称为层间并行)将模型的不同层分配到不同的设备上,形成计算流水线。数据依次流经各个设备,每个设备负责计算模型的一部分层。流水线并行的优势是实现相对简单,通信模式清晰;劣势是存在流水线气泡(Bubble),即部分设备在某些时间步处于空闲状态,影响资源利用率。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 72 模型并行面临的挑战及主要的优化技术模型并行面临的主要挑战是通信开销和负载均衡。在张量并行中,每个前向和反向传播步骤都需要进行设备间的通信,通信频率高;在流水线并行中,虽然通信频率较低,但单次通信的数据量可能较大。负载均衡方面,不同层的计算复杂度和内存占用可能差异很大,如何合理分配模型各层到设备上,实现负载均衡,是一个复杂的问题。为了优化模型并行的性能,业界提出了多种技术。通信计算重叠是一种常用技术,通过在计算进行的同时准备通信数据,隐藏通信延迟。流水线填充技术通过精心设计数据输入顺序,减少流水线气泡,提高设备利用率。动态负载均衡则根据实际运行时的性能数据,动态调整模型分配策略,实现更好的负载均衡。在实际的大模型训练中,模型并行通常与数据并行结合使用。例如,可以将模型按层分割到多个设备组上(流水线并行),每个设备组内部再对单层进行张AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 73 量并行,同时每个设备内部还可以采用数据并行。这种多维并行的策略可以充分利用大规模计算集群的资源,实现高效的大模型训练。4.2.3 混合并行与混合并行与 4D 并行并行混合并行技术是指同时使用多种并行技术,比如数据并行和模型并行,或者数据并行和流水线并行,或者数据并行和张量并行。在大模型训练中,由于模型规模巨大、计算资源有限,单一并行技术往往无法满足需求,需要采用混合并行策略,充分发挥不同并行技术的优势。混合并行技术的核心概念,以及 DP PP 和 DP TP 这两种常用策略DP PP(数据并行 流水线并行)是一种常用的混合并行策略。在这种策略中,模型被分割成多个阶段,每个阶段分配到一个设备组上,形成流水线并行;同时,每个设备组内部采用数据并行,处理不同的数据子集。这种策略可以同时利用数据并行的简单性和流水线并行的内存效率,适合中等规模的大模型训练。DP TP(数据并行 张量并行)是另一种常用的混合并行策略。在这种策略中,模型的每一层被分割到多个设备上,形成张量并行;同时,不同设备组之间采用数据并行,处理不同的数据子集。这种策略可以同时利用数据并行的扩展性AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 74 和张量并行的计算均衡性,适合计算密集型的大模型训练。飞桨 4D 混合并行策略的复杂性及其带来的挑战飞桨 4D 混合并行是一种更复杂的混合并行策略,结合了数据并行、张量并行、流水线并行和分组参数切片四种并行技术。在这种策略中,模型被同时沿多个维度进行分割:数据维度(数据并行)、张量维度(张量并行)、层维度(流水线并行)和参数维度(分组参数切片)。这种多维并行的策略可以最大化计算资源的利用率,适合超大规模的大模型训练。混合并行的核心挑战是调度复杂性和通信开销。在混合并行中,需要协调多种并行技术的调度,确保计算和通信的高效进行。同时,多种并行技术的叠加会导致通信模式的复杂化,增加通信开销。为了应对这些挑战,混合并行系统通常需要精心设计的调度算法和通信优化技术。在实际应用中,混合并行的选择需要考虑多个因素:模型特性(如层数、每AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 75 层计算量、内存占用等)、硬件配置(如设备数量、设备间带宽、内存容量等)、训练目标(如训练速度、内存效率、扩展性等)。通过合理选择和配置混合并行策略,可以实现大模型训练的最优性能。4.2.4 条件计算与条件计算与 MoE条件计算(Conditional Computation)和 MoE(Mixture of Experts)是大模型训练中的新兴技术,通过稀疏激活机制,在不增加计算负担的情况下扩展模型规模。条件计算的概念即仅在每个样本的基础上激活网络的不同部分,使得在不增加额外计算负担的情况下扩展模型规模成为可能。稀疏激活(SparseActivation)是指在神经网络中,某一层的激活值中只有一小部分是非零值,而大部分值为零或接近零。这种稀疏性可以减少计算量和内存需求,从而加速推理并降低能耗。稀疏激活通常出现在特定类型的神经网络或激活函数中,特别是在模型压缩和优化场景中。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 76 MoE(Mixture of Experts)是一种实现条件计算的具体架构,通过门控网络动态选择少数专家进行计算。在 MoE 层中,输入数据被路由到多个专家网络中的少数几个,只有被选中的专家才会参与计算,其他专家则处于空闲状态。这种稀疏激活机制使得模型可以在不增加计算成本的情况下大幅增加参数规模,提高模型容量。MoE 架构的核心组件包括专家网络、门控网络和路由机制。专家网络通常是前馈神经网络,负责具体的计算任务;门控网络负责根据输入数据决定激活哪些专家;路由机制则实现了数据到专家的分配。在实际实现中,MoE 层通常替换传统 Transformer 中的前馈网络层,形成稀疏激活的 Transformer 架构。MoE 架构的优势在于可以实现模型规模和计算成本的解耦。通过增加专家数量,可以线性增加模型参数规模,而计算成本仅与被激活的专家数量相关,保持相对恒定。这种特性使得 MoE 模型在参数规模远超传统模型的情况下,仍能保持合理的训练和推理成本。然而,MoE 架构也面临一些挑战。首先是训练稳定性问题,稀疏激活可能导致训练不稳定,需要特殊的训练技巧和正则化方法。其次是负载均衡问题,如果路由机制设计不当,可能导致某些专家过载而其他专家闲置,影响训练效率。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 77 最后是内存开销问题,虽然计算是稀疏的,但所有专家参数都需要存储,内存占用仍然很大。为了优化 MoE 架构的性能,业界提出了多种技术。负载均衡损失是一种常用的正则化方法,通过在损失函数中添加负载均衡项,鼓励门控网络均匀使用各个专家。专家容量限制则通过设置每个专家的最大处理批次大小,防止某些专家过载。通信优化技术则针对 MoE 特有的通信模式进行优化,减少专家间的数据传输开销。在实际应用中,MoE 架构已在大模型训练中取得显著成功。如 Google 的Switch Transformer、Mixtral 8x7B 等模型都采用了 MoE 架构,在保持合理计算成本的同时实现了巨大的参数规模和优秀的性能表现。随着技术的不断发展,MoE 架构有望在大模型领域发挥更重要的作用。4.3 推理加速与部署优化推理加速与部署优化4.3.1 模型压缩技术模型压缩技术模型压缩技术是降低大模型推理成本的关键手段,通过减少模型参数量和计算复杂度,实现更高效的推理部署。主要的模型压缩技术包括量化、剪枝、蒸馏等,这些技术可以单独使用,也可以组合使用,形成综合的压缩方案。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 78 量化技术详解量化(Quantization)是通过降低模型参数和激活值的数值精度来减少模型大小和计算量的技术。常见的量化方案包括 FP16(半精度浮点)、BF16(脑浮点)、INT8(8 位整数)、INT4(4 位整数)等。量化可以显著减少内存占用和计算量,同时利用现代 AI 硬件的低精度计算加速能力,提高推理速度。例如,将 FP32 模型量化为 INT8,可以减少 75%的内存占用,并在支持 INT8 计算的硬件上获得数倍的加速比。然而,过度量化可能导致模型精度下降,需要在压缩率和精度之间找到平衡。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 79 剪枝技术详解剪枝(Pruning)是通过移除模型中不重要的连接或神经元来减少模型参数量的技术。剪枝的核心思想是在尽量保持模型精度不受影响的前提下减少网络的参数量,例如减少网络中连接或神经元的数量。剪枝通常包括结构化剪枝和非结构化剪枝两种形式。结构化剪枝移除整个神经元或卷积核,保持模型结构规整,便于硬件加速;非结构化剪枝移除单个连接,压缩率更高但可能导致不规则的计算模式,难以直接加速。剪枝后的模型通常需要微调来恢复精度。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 80 蒸馏技术详解蒸馏(Distillation)是通过训练一个小模型(学生模型)来模仿大模型(教师模型)的行为,实现知识转移的技术。蒸馏不仅可以减少模型大小,还可以将多个大模型的知识集成到一个小模型中,提高小模型的性能。蒸馏通常包括软目标蒸馏、特征蒸馏、关系蒸馏等多种形式,分别针对模型的输出、中间特征、样本关系等进行知识转移。蒸馏的优势是可以保持模型结构规整,便于硬件加速;劣势是训练过程复杂,需要精心设计蒸馏策略。除了上述主要技术外,还有一些其他的模型压缩方法,如二值化(将参数量化为 1 位)、低秩分解(将权重矩阵分解为多个小矩阵)、参数共享(多个参数共享相同值)等。这些技术通常与量化、剪枝、蒸馏等技术结合使用,形成综合的压缩方案。在实际应用中,模型压缩技术的选择需要考虑多个因素:硬件特性(如支持的精度、计算能力等)、应用场景(如延迟要求、精度要求等)、模型特性(如结构、敏感度等)。通过合理选择和组合不同的压缩技术,可以在满足应用需求的前提下,最大化压缩效果,实现高效的大模型推理部署。4.3.2 推理引擎优化推理引擎优化推理引擎优化是大模型推理加速的重要手段,通过图优化、算子调度、内存管理等技术,充分发挥硬件计算能力,实现高效的推理执行。主流的推理引擎包括 TensorRT、ONNX Runtime、OpenVINO 等,它们各自具有不同的特点和适用场景。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 81 大模型推理引擎优化概述与主流引擎对比TensorRT 是 NVIDIA 开发的高性能深度学习推理引擎,针对 NVIDIA GPU进行了深度优化。TensorRT 的核心优化技术包括:精度校准(自动选择最佳精度)、层和张量融合(减少内存访问和 kernel 启动开销)、内核自动调整(针对特定 GPU 选择最优实现)、动态张量内存(最小化内存占用并重复使用内存)等。TensorRT 特别适合在 NVIDIA GPU 上部署大模型,可以显著提升推理速度和能效。ONNX Runtime 是一个跨平台的开源推理引擎,支持多种硬件平台和 AI 框架。ONNX Runtime 的核心优势在于其模块化架构和可扩展性,通过执行提供程序(Execution Providers)机制支持不同的硬件后端,如 CPU、GPU、NPU 等。ONNX Runtime 还提供了丰富的图优化和内存管理功能,如常量折叠、死代码消除、内存规划等,可以在多种硬件平台上实现高效的推理执行。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 82 OpenVINO 是 Intel 开发的开源推理工具包,针对 Intel 硬件(CPU、GPU、VPU 等)进行了优化。OpenVINO 的核心组件包括模型优化器(Model Optimizer)和推理引擎(Inference Engine)。模型优化器将训练好的模型转换为 OpenVINO的中间表示(IR),进行图优化和精度校准;推理引擎则针对 Intel 硬件进行深度优化,实现高效的推理执行。OpenVINO 特别适合在 Intel 平台上部署大模型,可以充分利用硬件的加速能力。推理引擎优化关键环节与大模型挑战推理引擎优化通常包括以下几个关键环节:图优化、算子优化、内存管理、批处理优化等。图优化通过常量折叠、死代码消除、算子融合等技术,简化计算图结构,减少计算量;算子优化针对特定硬件实现高效的算子库,充分利用硬件的加速能力;内存管理通过内存复用、预分配等技术,减少内存分配和释放的开销;批处理优化则通过动态批处理、批处理大小自适应等技术,提高硬件利用率。在大模型推理中,推理引擎优化面临一些特殊挑战。一是大模型的计算图规模庞大,图优化时间和内存消耗成为瓶颈;二是大模型的动态特性(如动态形状、AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 83 条件计算等)增加了优化难度;三是大模型的内存占用巨大,需要特殊的内存管理策略。为应对这些挑战,推理引擎技术正在向更高效、更智能、更灵活的方向发展,如增量编译、自适应批处理、内存分片等。4.3.3 KVCache 与分离式推理与分离式推理KVCache 与分离式推理是大模型推理优化的重要技术,通过优化注意力机制的计算和内存管理,显著提升长文本场景下的推理效率。这些技术特别适用于自回归生成任务,如文本生成、代码生成等场景。KVCache 与注意力机制优化KVCache(Key-Value Cache)是一种优化注意力计算的技术,通过缓存和复用历史计算的 Key 和 Value 向量,避免重复计算。在大模型的自回归生成过程中,每个新生成的 token 都需要与之前所有 token 进行注意力计算,如果不使用缓存,计算复杂度会随序列长度平方增长。KVCache 技术将历史计算的 Key 和 Value向量存储在缓存中,新生成 token 时只需计算当前 token 的 Key 和 Value,然后与缓存中的历史向量进行注意力计算,将计算复杂度从 O(n)降低到 O(n),其中n 是序列长度。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 84 分离式推理是一种以 KVCache 为中心的推理架构,将注意力机制的计算与其他计算分离,实现更高效的内存管理和计算调度。在传统的大模型推理中,注意力计算和其他计算(如前馈网络)是交织在一起的,难以独立优化。分离式推理将模型分为注意力模块和其他模块,分别进行优化和调度,可以更灵活地管理KVCache,提高内存利用率和计算效率。分离式推理架构与 KVCache 优化KVCache 优化是分离式推理的核心环节,主要包括 KVCache 量化、KVCache稀疏化、KVCache 压缩等技术。KVCache 量化通过将 KVCache 量化为低精度格式(如 INT8、INT4),减少内存占用和带宽需求;KVCache 稀疏化通过识别和移除 KVCache 中的不重要元素,减少存储和计算开销;KVCache 压缩则通过编码压缩等技术,进一步减少 KVCache 的内存占用。在实际应用中,KVCache 与分离式推理技术已在大模型服务中得到广泛应用。例如,清华大学的 KVCache.AI 项目针对长文本大模型推理进行了深度优化,AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 85 通过 KVCache 管理和分离式推理架构,显著提升了长文本场景下的推理效率。这些技术使得超长文本(如百万 token 级别)的大模型推理成为可能,为长文本应用场景提供了技术支撑。KVCache 与分离式推理技术面临的挑战主要包括:一是 KVCache 的内存占用随序列长度线性增长,长序列场景下内存压力巨大;二是 KVCache 的管理和调度复杂,需要高效的内存分配和回收策略;三是分离式推理的实现需要对模型结构进行修改,增加了开发和维护的复杂性。为应对这些挑战,相关技术正在向更高效、更智能、更自动化的方向发展,如自适应 KVCache 管理、动态 KVCache压缩、自动模型分割等。4.3.4 边缘边缘-云协同推理云协同推理边缘-云协同推理是一种分布式推理范式,通过将大模型分割为多个部分,分别部署在边缘设备和云端服务器上,实现低延迟、高效率的推理服务。这种技术特别适用于对实时性要求高、计算资源有限的边缘场景,如移动设备、物联网设备等。边缘-云协同推理架构概览边缘-云协同推理的核心思想是模型分割,即将大模型分割为多个子模型,根据计算复杂度和延迟要求,将不同子模型分配到边缘设备和云端服务器上。通常,计算密集型和能耗密集型的子模型被卸载到云端服务器进行计算,而轻量级AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 86 的子模型则在边缘设备上执行。这种分割策略可以在保证推理质量的同时,满足边缘场景的低延迟要求。边缘-云协同推理可以分为三个部分:边缘设备推理、中间结果传输、云服务器推理。这三部分可作为三个进程,在推理过程中并行处理。即云端在推理当前视频帧的同时,边缘设备可以推理下一帧,形成流水线式的处理流程,进一步提高整体效率。边缘-云协同推理的优势在于可以充分利用边缘和云端的各自优势。边缘设备靠近数据源,可以提供低延迟的数据采集和预处理;云端服务器拥有强大的计算能力,可以处理复杂的计算任务。通过合理的模型分割和任务调度,边缘-云协同推理可以实现比纯边缘推理更高的性能,比纯云端推理更低的延迟。边缘-云协同推理的优势与挑战然而,边缘-云协同推理也面临一些挑战。首先是网络依赖性,边缘设备与云端之间的通信质量直接影响协同推理的性能,网络不稳定或带宽不足可能导致性能下降。其次是隐私安全问题,数据需要在边缘和云端之间传输,可能涉及隐私泄露风险。最后是能耗问题,边缘设备通常电池供电,需要考虑能耗优化。为了优化边缘-云协同推理的性能,业界提出了多种技术。动态模型分割是一种关键技术,根据网络状况、设备状态、任务特性等因素,动态调整模型分割策略,实现最优的性能。自适应传输技术则根据网络条件动态调整数据传输策略,AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 87 如数据压缩、增量传输等,减少网络开销。隐私保护技术通过联邦学习、差分隐私、数据加密等手段,保护数据隐私和安全。在实际应用中,边缘-云协同推理已在多个领域得到成功应用。例如,在智能监控场景中,边缘设备负责视频采集和预处理,云端服务器负责复杂的视频分析任务;在智能医疗场景中,边缘设备负责医学影像采集,云端服务器负责复杂的影像分析和诊断;在自动驾驶场景中,边缘设备负责实时感知和决策,云端服务器负责高精度地图更新和模型训练。随着 5G、边缘计算、大模型等技术的发展,边缘-云协同推理将在更多场景中发挥重要作用,为 AI 技术的普及和应用提供新的技术路径。4.4 异构资源调度与编排异构资源调度与编排4.4.1 资源统一管理资源统一管理异构资源统一管理是构建高效异构算力系统的基础,通过抽象和池化不同类型的计算资源,实现资源的统一调度和高效利用。在 AI 大模型场景中,异构资源包括 CPU、GPU、国产 AI 芯片(如寒武纪 MLU、昇腾 NPU 等)、FPGA 等多种计算单元,如何实现这些资源的统一管理是一个重要挑战。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 88 异构资源统一管理架构概览Kubernetes Device Plugin 是目前主流的异构资源管理方案。Kubernetes 作为容器编排平台,提供了强大的资源管理和调度能力;Device Plugin 机制则允许第三方设备厂商扩展 Kubernetes,支持新型硬件资源。通过 Device Plugin,各种AI 加速器可以被抽象为 Kubernetes 的可调度资源,与 CPU、内存等资源一样进行管理和分配。这种方案的优势是可以利用 Kubernetes 成熟的生态和工具链,降低异构资源管理的复杂性。Volcano 是面向 AI、大数据等高性能计算场景的增强型调度器,构建在Kubernetes 之上,提供了更强大的异构资源管理能力。Volcano 提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入 AI、大数据、基因、渲染等诸多行业计算框架服务终端用户。Volcano v1.12增加了对 DRA(Dynamic Resource Allocation)的支持,允许集群动态分配和管AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 89 理外部资源,增强了与异构硬件的集成能力。异构设备抽象与池化是资源统一管理的核心技术。异构设备抽象通过统一的接口和描述模型,将不同类型的硬件资源抽象为标准化的资源对象,隐藏硬件差异,简化上层应用的开发。异构设备池化则将分散的硬件资源汇聚成虚拟的资源池,实现资源的共享和复用,提高资源利用率。在实际实现中,通常采用分层抽象的策略,底层针对特定硬件提供专用驱动,中层提供统一的资源抽象,上层提供标准化的 API 接口。异构资源统一管理面临的挑战与发展趋势资源统一管理面临的挑战主要包括:一是硬件多样性,不同厂商、不同类型的 AI 加速器在接口、功能、性能等方面差异巨大,统一抽象难度高;二是性能隔离,不同类型的资源可能存在性能干扰,需要有效的隔离机制;三是状态管理,异构设备通常有复杂的状态(如固件版本、驱动版本等),需要统一的状态管理AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 90 机制。为应对这些挑战,资源统一管理技术正在向更标准化、更智能化、更自动化的方向发展,如标准化设备接口、智能资源调度、自动化运维等。在实际应用中,异构资源统一管理已在大规模 AI 集群中得到广泛应用。例如,在智算中心中,通过 Kubernetes Volcano 的架构,实现了对 CPU、GPU、国产 AI 芯片等多种资源的统一管理和调度,为大模型训练和推理提供了高效的算力支撑。随着异构算力的普及,资源统一管理技术将在 AI 基础设施中发挥越来越重要的作用。4.4.2 任务调度策略任务调度策略任务调度策略是异构资源管理的核心环节,通过合理的任务分配和资源调度,实现系统性能的最优化。在大模型与异构算力融合场景中,任务调度需要考虑多种因素,如任务特性、资源特性、网络状况等,是一个复杂的优化问题。任务调度策略的维度AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 91 基于优先级的调度是最常用的调度策略之一。根据任务的重要性和紧急程度,为任务分配不同的优先级,高优先级任务优先获得资源。这种策略简单直观,适合有明显重要性差异的任务场景。然而,简单的优先级调度可能导致低优先级任务饥饿,需要结合其他机制(如时间片轮转、优先级衰减等)来保证公平性。资源亲和性调度是另一种重要的调度策略,根据任务与资源之间的亲和关系,将任务分配到最适合的资源上。在大模型场景中,不同的模型层或算子可能对不同类型的硬件有不同的亲和性,如注意力计算适合在 GPU 上执行,而某些特定的算子可能在专用 AI 芯片上更高效。资源亲和性调度可以充分利用硬件特性,提高任务执行效率。负载感知调度是一种动态调度策略,根据系统的实时负载情况,动态调整任务分配策略。负载感知调度需要监控系统的各项指标,如 CPU 利用率、内存使用量、网络带宽、设备温度等,基于这些信息做出调度决策。这种策略可以适应系统负载的动态变化,实现更均衡的资源利用。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 92 训练与推理任务混部优化训练与推理任务混部优化是异构算力调度中的特殊挑战。训练任务通常计算密集、长时间运行、资源需求稳定;推理任务则通常延迟敏感、短时间运行、资源需求波动大。如何将这两种不同特性的任务合理混部,提高资源利用率,是一个复杂的问题。常见的策略包括时间分片(不同时间段运行不同类型任务)、资源隔离(为不同类型任务分配专用资源)、动态调整(根据负载情况动态调整资源分配)等。Volcano 调度器提供了丰富的任务调度策略支持。Volcano Scheduler 由一系列 action 和 plugin 组成,action 定义了调度各环节中需要执行的动作;plugin 根据不同场景提供了 action 中算法的具体实现细节。Volcano 支持节点负载感知调度与重调度,支持多样化的监控系统,可以根据实际需求配置不同的调度策略。在实际应用中,任务调度策略的选择需要考虑多个因素:任务特性(如计算AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 93 类型、资源需求、延迟要求等)、资源特性(如计算能力、内存容量、网络带宽等)、系统目标(如吞吐量、延迟、资源利用率等)。通过合理选择和配置任务调度策略,可以实现异构算力系统的高效运行,为大模型训练和推理提供强大的算力支撑。4.4.3 弹性伸缩与算力交易弹性伸缩与算力交易弹性伸缩与算力交易是异构算力资源管理的高级特性,通过动态调整资源供给和实现算力的市场化交易,提高资源利用效率,降低使用成本。这些技术在大模型与异构算力融合场景中具有重要意义,可以帮助用户更灵活、更经济地使用算力资源。弹性伸缩是指根据业务需求和策略自动调整计算能力的服务。在 Kubernetes环境中,弹性伸缩主要包括水平伸缩(HPA,Horizontal PodAutoscaler)和垂直伸缩(VPA,Vertical Pod Autoscaler)两种形式。HPA 主要通过增加或减少 Pod数量来实现伸缩,适合无状态服务的扩展;VPA 则通过调整 Pod 的资源请求和限制来实现伸缩,适合需要调整资源配额的场景。HPA 伸缩算法相对保守,如AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 94 果某个 Pod 获取不到资源指标或者资源没有准备好的情况下,在进行扩容操作时,该 Pod 的资源指标均不会加入计算,确保伸缩的稳定性。弹性伸缩在大模型场景中面临特殊挑战。大模型任务通常资源需求大、启动时间长,传统的基于 CPU 利用率的伸缩策略可能不够准确。针对这些特点,大模型弹性伸缩需要考虑更多因素,如 GPU 利用率、内存使用量、队列长度等,并结合预测性伸缩(Predictive Scaling)技术,提前预判资源需求,避免资源不足导致的性能下降。算力交易是算力资源的市场化配置方式,通过将算力资源商品化,实现供需双方的高效匹配。算力交易可以采用多种形式,如按需付费(Pay-as-you-go)、预留实例(Reserved Instances)、竞价实例(Spot Instances)等。按需付费适合短期、不确定的资源需求;预留实例适合长期、稳定的资源需求,可以享受折扣价格;竞价实例则适合可中断、弹性大的任务,价格更低但可能被中断。算力交易市场通常包括资源提供方、资源需求方、交易平台等参与者。资源提供方包括云服务商、算力中心、企业闲置资源等;资源需求方包括 AI 企业、研究机构、个人开发者等;交易平台则提供资源发布、匹配、交易、结算等功能。区块链技术可以用于构建去中心化的算力交易平台,通过智能合约实现自动化的交易执行和结算,提高交易的透明度和可信度。弹性伸缩与算力交易的结合可以形成更智能的算力资源管理体系。通过弹性伸缩技术,可以根据实际需求动态调整资源规模;通过算力交易技术,可以在不同资源提供商之间选择最优的资源组合。这种结合可以实现算力资源的最优配置,在满足性能需求的同时,最小化使用成本。在实际应用中,弹性伸缩与算力交易已在多个云平台和算力网络中得到实现。例如,阿里云弹性伸缩服务(ESS)支持根据业务需求和策略自动调整计算能力,支持 ECS 实例和 ECI 实例;华为云 Volcano 调度器支持多种弹性伸缩策略,可以适应不同类型的 AI 工作负载。随着算力网络的不断发展,弹性伸缩与算力交易技术将在更广泛的场景中发挥作用,推动算力资源的高效利用和市场化配置。五、国内企业实践与案例分析五、国内企业实践与案例分析5.1 华为昇腾:异构算力与大模型融合实践华为昇腾:异构算力与大模型融合实践5.1.1 云端芯片在互联网大厂部署云端芯片在互联网大厂部署华为昇腾作为国内 AI 芯片领域的领军企业,其昇腾 910 系列芯片已在多家AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 95 互联网大厂实现规模化部署,展现出国产 AI 芯片在大模型场景下的实用价值。昇腾 910B 是华为面向云端训练的高性能 AI 处理器,采用 7nm EUV 工艺制造,拥有 32 核自研达芬奇架构,其半精度(FP16)算力达到 256-320 TFLOPS,整数精度(INT8)算力达到 512-640 TOPS,功耗 310W,被视为业界算力最强的 AI处理器之一。在字节跳动,华为昇腾芯片已成为大模型训练的重要算力支撑。据最新消息,字节跳动已向华为订购了多达 10 万颗昇腾 910B 芯片。昇腾 910B 的性能、能效都优于 NVIDIAA100,字节跳动计划使用昇腾 910B 芯片来训练新的 AI 模型。华为与字节跳动的合作不仅限于硬件供应,还包括软件栈的深度适配和优化,确保在大规模生产环境中的稳定运行。腾讯与字节跳动的 AI 资本开支也将显著增长,昇腾芯片在其中扮演重要角色。在业界应用广泛的 YOLOv3、Transformer 等训练任务中,多卡昇腾 910B 计算系统展现出优异的性能表现。华为为多卡系统专门设计了 HCCS 互连技术,可实现高速互联,形成强大的计算集群,满足大规模 AI 训练和推理需求。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 96 华为昇腾与互联网大厂的合作模式不仅限于硬件供应,还包括联合研发、场景适配、性能优化等多个层面。通过深度合作,华为不断优化产品设计和软件生态,而互联网大厂则获得了更加适合自身业务需求的 AI 算力解决方案。这种互利共赢的合作模式,推动了国产 AI 芯片在实际应用中的快速迭代和成熟。据市场数据显示,2024 年华为昇腾出货 64 万片,在国内 AI 芯片市场占据 23(%的份额,排名第二,仅次于英伟达。5.1.2 边缘与端侧落地案例边缘与端侧落地案例除云端部署外,华为昇腾芯片在边缘和端侧场景也有广泛应用。昇腾 310系列是华为面向边缘计算场景的 AI 处理器,采用华为自研的达芬奇架构,在功耗仅为 6.5W 的条件下,提供强大的 AI 推理能力。Atlas 200AI 加速模块集成了昇腾 310 处理器,可在边端侧实现目标识别、图像分类等 AI 应用加速,广泛用于智能边缘设备、机器人、无人机、智能工控等边端侧 AI 场景。在智能安防领域,华为昇腾 Atlas 200AI 加速模块被广泛应用于各类智能摄像头中。南方电网深圳供电局与华为携手,在边缘侧部署输电视频监控终端,集成 Atlas 200 AI 加速模块,运行 AI 推理算法进行就地图像视频分析,使巡检效率提升了 80 倍。通过在边缘设备本地完成 AI 计算,不仅减少了数据传输延迟,也保护了用户隐私,同时降低了对网络带宽的依赖。在实际部署中,搭载昇腾310 的智能摄像头能够在复杂环境下稳定运行,满足 724 小时不间断工作的需AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 97 求。在工业质检场景,华为昇腾边缘芯片与机器视觉技术结合,实现了产品质量的自动检测。富士康采用华为昇腾 910 芯片 动态量化方案,显著提升了检测效率。通过将 AI 推理能力下沉到生产现场,可以实时发现产品缺陷,及时调整生产工艺,提高产品质量和生产效率。昇腾边缘芯片的低功耗特性,使其能够直接集成到工业设备中,无需额外的散热和供电设施,大大简化了部署复杂度。在智慧城市领域,华为昇腾边缘计算解决方案已在全国多个城市落地。昇腾AI 边缘智能已经广泛应用到工业质检、高速收费稽核、智慧营业厅等场景,极大地加速了行业智能升级。例如,在高速收费稽核场景,昇腾边缘设备能够实时分析车辆信息,自动识别违规行为;在智慧营业厅,昇腾边缘设备能够提供智能客服、人脸识别等服务,提升用户体验。华为昇腾边缘与端侧产品与云端产品形成了完整的算力梯度,支持从云端到边缘再到终端的全场景 AI 计算需求。这种云边端一体化的产品布局,使得用户可以根据实际需求选择最适合的产品形态,构建灵活高效的 AI 计算系统。截至2025 年,已有超过 100 万的开发者加入昇腾生态,有 25 个城市基于昇腾构建人工智能计算中心,其中 14 个已经上线并饱和运营。5.2 国内企业布局国内企业布局5.2.1 寒武纪寒武纪寒武纪作为国内 AI 芯片的重要企业,其思元系列芯片在性能和技术创新方面表现突出。寒武纪成立于 2016 年,专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片。2023 年,寒武纪发布最新一代云端高算力芯片产品思元 590 芯片,该芯片方便兼容主流 AI 大模型,综合性能对标英伟达 A100,实力处于国内领先水平。思元 590 是寒武纪最新一代云端智能训练芯片,该产品性能相比思元 370有翻倍以上的提升。根据测试数据,寒武纪 590 单卡性能测试接近 A100,达到A100 80%-90%的程度,目前 MLU-Link 的片间互联速度 512GB/s(A800 是400GB/s),集群互联目前性能发挥大概在 A100 8090%之间。思元 590 采用寒武纪自研的 MLUarch05 架构,能够提供更大的内存容量和带宽,IO 和片间互联接口也较上代实现大幅升级,主要面向训练任务。在智能计算中心建设方面,寒武纪取得了显著进展。南京智能计算中心是寒AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 98 武纪的重要落地案例,该中心由 7280 块搭载国产芯片的 AI 智能加速卡提供智能算力,采用全国产化硬件和软件体系,算力达到每秒 180 亿亿次(1800P FLOPS)。2025 年 2 月,南京智算中心宣布联合国产芯片厂商寒武纪,用全国产设备运行国产大模型 DeepSeek,为苏宁易购提供全国产化模型推理服务,成为南京首例全国产算力版 DeepSeek 商业化应用案例。寒武纪的智能计算中心布局不仅限于南京,在全国范围内都有重要项目。中心通过提供智能算力、通用算力、行业应用等,服务包括中科院计算所、中国科学技术大学、南京大学、寒武纪行歌、中汽创智在内的近百家科研院所、高校机构和企业。寒武纪在 2024 年上半年持续发力智能计算集群系统的部署效率,其训练软件平台开发了集群分析工具,完善了故障判断逻辑,同时优化了故障处理流程,进一步提升了产品竞争力。在技术路线上,寒武纪主要采用 ASIC 架构,劣势是通用性会比较差,优势是某些特定应用场景下,算力可以做到比 GPU 更高。寒武纪思元 590 与英伟达的差距主要体现在通用性方面,但在特定应用场景下具有优势。百度内部的测试结果显示,590 在某些任务上表现优异,展现了寒武纪芯片的技术实力。5.2.2 阿里平头哥与含光芯片阿里平头哥与含光芯片阿里平头哥是阿里巴巴旗下的半导体公司,其含光 800 芯片是面向云端推理的高性能 AI 芯片。含光 800 性能的突破得益于软硬件的协同创新:硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对 CNN 及视觉类算法深度优化。按照 ResNet50 需要的算力反推,含光 800 的算力达到 820TOPS,在当时创造了全球 AI 芯片性能的新纪录。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 99 阿里平头哥含光 800 芯片的性能优势与技术创新在 AI 场景中,含光 800 是异构计算的很好补充。阿里云基于含光 800 的 AI服务识别一张图片仅需 0.0739ms,同时在训练成本和推理效率方面都有显著提升。DAWNBench 官方显示,阿里云异构计算服务训练 ImageNet 128 万张图片仅需 2 分 38 秒,展现了含光 800 在实际应用中的优异性能。未来,平头哥的产品形态还会进一步完善,包括云端 AI 训练芯片和端侧 AI 推理芯片,形成完整的产品矩阵。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 100 阿里云灵骏平台与“云芯一体”战略阿里云灵骏是面向大规模深度学习及融合智算的 PaaS 产品,支持公共云Serverless 版、单租版以及混合云形态,基于软硬件一体优化技术,构建高性能异构算力底座。灵骏平台整合了含光 800 等异构计算资源,通过统一的资源管理和调度系统,为 AI 大模型训练和推理提供高效的算力支持。在实际应用中,灵骏平台已经支持了阿里巴巴内部众多 AI 业务,并通过阿里云对外提供服务,助力企业 AI 创新。阿里巴巴在 AI 芯片领域的布局体现了云芯一体的战略思想,通过自研芯片与云服务的深度结合,实现性能和成本的最优化。含光 800 与阿里云的协同,不仅提升了阿里云 AI 服务的竞争力,也为阿里巴巴自身的 AI 业务提供了强大的算力支撑,形成了技术与业务的良性循环。5.2.3 腾讯星星海与腾讯星星海与 AI 加速卡加速卡腾讯在 AI 算力领域的布局主要体现在星星海自研服务器和 AI 加速卡上。腾AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 101 讯云结合星星海自研服务器,自研高性能智能网络提供的 3.2T 超高互联带宽,以及腾讯自研 AI 加速卡,构建了强大的 AI 算力基础设施。在腾讯云上,企业基于 TI 平台的大模型能力和工具箱,可结合自身场景数据,进行大模型的精调和应用开发,加速 AI 落地。腾讯混元大模型是腾讯 AI 技术的重要成果,已经覆盖了自然语言处理、计算机视觉、多模态等基础模型和众多行业、领域模型。混元大模型背后的训练框架 AngelPTM,也已通过腾讯云对外提供服务,帮助企业加速大模型落地。腾讯混元 AI 大模型与腾讯云的算力基础设施深度结合,形成了从算法到算力的完整技术栈。腾讯云 TI 平台是腾讯云面向 AI 开发的一站式平台,提供了从数据处理、模型训练到模型部署的全流程支持。TI 平台与腾讯云的异构算力基础设施深度集成,支持多种 AI 框架和硬件平台,为开发者提供灵活高效的开发环境。在实际应用中,TI 平台已经支持了腾讯内部众多 AI 业务,并通过腾讯云对外提供服务,助力企业 AI 创新。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 102 腾讯在 AI 算力领域的布局体现了软硬协同的理念,通过自研硬件与软件平台的深度结合,实现系统性能的最优化。星星海服务器与 AI 加速卡、TI 平台、混元大模型的协同,不仅提升了腾讯云 AI 服务的竞争力,也为腾讯自身的 AI业务提供了强大的技术支撑,形成了从底层硬件到上层应用的完整技术体系。5.3 智算中心与云服务商实践智算中心与云服务商实践5.3.1 国家级智算中心国家级智算中心国家级智算中心是中国 AI 算力基础设施的重要组成部分,通过集中化的建设和运营,为科研机构和企业提供强大的 AI 计算能力。北京、杭州等地的智算中心在异构算力资源调度方面进行了积极探索,形成了各具特色的实践案例。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 103 杭州市算力资源调度服务平台于 2025 年 3 月正式启用,是杭州首个多元异构力资源调度服务平台。该平台首批接入 5 家数据中心,整合了通用算力、智能算力等多元资源,具有算力超市、撮合交易、AI 训推一体化平台等五大重点功能。通过统一的资源调度和管理,杭州市算力资源调度服务平台实现了算力资源的高效利用和优化配置,为区域 AI 产业发展提供了强大支撑。国家新一代 AI 公共算力开放创新平台(北京、杭州等)是国家级智算中心的代表,这些平台不仅提供强大的算力资源,还构建了完整的技术生态和服务体系。在这些平台中,异构算力资源调度是核心技术挑战,需要解决不同架构硬件的统一管理、任务调度、负载均衡等问题。通过先进的调度算法和管理系统,这些平台实现了多元异构算力的高效协同,为各类 AI 应用提供了强大的算力支持。智算中心的建设面临着核心供给不足与结构错配、通信连接瓶颈、算力调度复杂以及异构算力生态融合难等挑战。为应对这些挑战,智算中心建设要以开放AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 104 硬件和开源软件为主,融合多元算力,实现算力的聚合、调度、释放,让智算中心用起来、用得好。同时,要朝着标准化、集约化方向发展,提高建设和运营效率,降低使用成本。5.3.2 商业云服务商商业云服务商商业云服务商在异构算力服务方面进行了大量创新,阿里云灵骏、腾讯云智算、华为云 ModelArts 等平台代表了国内云服务商在异构算力领域的先进实践。阿里云灵骏是面向大规模深度学习及融合智算的 PaaS 产品,支持公共云Serverless 版、单租版以及混合云形态。灵骏基于软硬件一体优化技术,构建高性能异构算力底座,整合了 CPU、GPU、NPU 等多种计算资源,通过统一的资源管理和调度系统,为 AI 大模型训练和推理提供高效的算力支持。灵骏平台支持多种 AI 框架和硬件平台,为开发者提供灵活高效的开发环境。腾讯云智算结合腾讯星星海自研服务器和 AI 加速卡,构建了强大的 AI 算力基础设施。腾讯云在行业率先发布了大模型公有云算力集群 HCC,该集群结合腾讯云星星海自研服务器,腾讯云自研高性能智能网络提供的 3.2T 超高互联带AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 105 宽,以及腾讯自研 AI 加速卡,为大规模 AI 训练和推理提供了强大支撑。在实际应用中,腾讯云智算已经支持了混元大模型等众多 AI 业务,展现出优异的性能和稳定性。华为云 ModelArts 是华为云面向 AI 开发的一站式平台,提供了从数据处理、模型训练到模型部署的全流程支持。ModelArts 与华为昇腾 AI 硬件深度集成,通过软硬件协同优化,实现了高性能的 AI 训练和推理。在脑科学研究方面,华为云 ModelArts 也有所作为:中科院脑智卓越中心通过完整解析斑马鱼的透明大脑来揭示大脑的工作原理,对接类脑智能。ModelArts 平台的易用性和高性能,使其成为科研机构和企业 AI 开发的重要工具。国内云服务商在异构算力服务方面的共同特点是软硬协同、全栈优化,通过自研硬件与软件平台的深度结合,实现系统性能的最优化。这些平台不仅提供强大的算力资源,还构建了完整的技术生态和服务体系,为 AI 开发者提供从底层硬件到上层应用的全方位支持,加速了 AI 技术的创新和应用。5.4 开源社区与开发者生态开源社区与开发者生态5.4.1 国内国内 AI 开源平台开源平台AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 106 国内 AI 开源平台在推动异构算力与大模型融合方面发挥着重要作用,OpenI启智、ModelScope、飞桨开源社区、算网 AI 平台等平台为开发者提供了丰富的资源和支持。OpenI 启智是由新一代人工智能产业技术创新战略联盟(AITISA)组织运作的开源社区,旨在培育高水平的开源技术,汇聚国家从事开源项目的开发者和各个单位的力量。OpenI 启智社区旗下的一站式 AI 开发协作平台,汇聚人工智能开源项目,涵盖自动建模、算力容器、自动参数调优、模型部署、数据标注工具等功能。通过社区建设,OpenI 启智希望建立一个从底层芯片到上层应用的技术体系,推动 AI 技术的开源共享和协同创新。飞桨(PaddlePaddle)是百度自主研发的产业级深度学习平台,集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务于一体。飞桨同时支持动态图和静态图,兼顾灵活性和效率;精选应用效果最佳算法模型并提供官方支持;真正源于产业实践,经过大规模业务验证。据统计,依托飞桨,产学研用共建技术和产业生态,已累计培养超过百万 AI 人才。ModelScope 是阿里巴巴达摩院推出的 AI 模型开源平台,提供了大量预训练模型和开发工具,支持开发者快速构建 AI 应用。ModelScope 平台整合了阿里巴巴在 AI 领域的技术积累,涵盖自然语言处理、计算机视觉、语音识别等多个领域,为开发者提供了丰富的模型资源和开发支持。通过开源共享,ModelScope促进了 AI 技术的普及和创新,推动了异构算力在更多场景中的应用。算网平台(https:/ AI 开发者的平台,集异构算力、模型、数据为一体的一站式 AI 开发平台,涵盖了从数据到模型训练微调服务、模型部署服务、按需租赁算力等服务。涵盖了国内外主流的模型库,如 DeepSeek、阿里千问系列等模型,可一键部署和使用。同时基于该平台构建的算泥开发者社区,为广大的 AI 开发者、高校学生/老师/科研团队提供了成体系的 AI 大模型相关课程,市场报告,专业的内容输出,AI 项目的开发与交流平台。这些国内 AI 开源平台的共同特点是开放共享、生态共建,通过开源代码、模型、工具等资源,降低 AI 技术门槛,促进技术创新和应用落地。同时,这些平台也积极支持国产异构算力,通过优化适配和性能调优,推动国产 AI 芯片在实际应用中的普及和成熟。5.4.2 开发者工具链与支持开发者工具链与支持AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 107 完善的开发者工具链和支持体系是异构算力与大模型融合的关键保障。国内企业和开源社区在开发者工具链建设方面进行了大量投入,为开发者提供了丰富的资源和支持。华为昇腾社区提供了完整的开发资源和支持体系,包括社区版和商业版CANN(Compute Architecture for Neural Networks)计算架构。昇腾开发资源下载中心提供社区版和商业版下载,其中社区版快速提供新特性的体验版,供开发者提前试用;商业版满足商用标准的稳定版本。昇腾开发指南用于指导开发者如何基于昇腾平台进行模型开发、应用开发、算子开发,并提供常见故障处理指导以及日志参考等,为开发者提供全方位的技术支持。算泥社区(https:/ AI 大模型开发者平台,在异构算力与大模型融合中扮演着重要角色。算泥社区提供AI 大模型开发服务 模型 算力的三位一体服务,通过 API、镜像、教程等丰富的开发者资源,降低开发者使用异构算力的门槛。算泥社区不仅提供技术支持,还通过社区活动、培训认证、开发者大赛等形式,促进技术交流和人才培养,推动异构算力与大模型融合技术的普及和应用。国内企业和开源社区在开发者工具链建设方面的共同特点是全栈支持、生态共建,通过提供从底层硬件到上层应用的完整工具链和支持体系,降低开发者使用异构算力的门槛,加速技术创新和应用落地。这些工具链和支持体系不仅提高了开发效率,也促进了异构算力在更多场景中的应用,推动了整个 AI 产业的健康发展。六、行业应用与场景落地六、行业应用与场景落地6.1 互联网与内容生成互联网与内容生成6.1.1 AIGC 应用应用AIGC(AI Generated Content)是当前大模型技术最具代表性的应用场景,涵盖了文本、图像、音频、视频等多种内容形式的自动生成。在文生图领域,StableDiffusion 等模型通过扩散模型技术,能够根据文本描述生成高质量图像,广泛应用于创意设计、广告制作、游戏开发等领域。这些模型的训练和推理需要大量算力支持,特别是在高分辨率图像生成场景下,单次生成可能需要数秒到数分钟的计算时间,对算力的实时性和稳定性提出了高要求。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 108 文生视频是 AIGC 领域的新兴方向,Sora 能根据文本生成最长 20 秒的高质量视频,理论上支持任意分辨率,如 1920 x1080、1080 x1920 等。从技术原理上看,Sora 可以理解成是一种融合 Transformer 模型与 Stable Diffusion 的混合模型,通过 Transformer 原理的序列建模能力,结合扩散模型的图像生成能力,实现了高质量的视频生成。Sora 的出现彻底颠覆了文生视频领域,但其背后是巨大的算力需求,单次视频生成可能需要数千 GPU 小时的计算量。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 109 异构算力在 AIGC 应用中发挥着关键作用。在训练阶段,大规模 GPU 集群提供了必要的计算能力,支持模型在海量数据上的训练;在推理阶段,GPU、TPU 等专用加速器则提供了高效的推理性能,满足实时生成需求。特别是在视频生成等高计算复杂度场景,异构算力通过不同类型处理器的协同工作,实现了计算效率的最优化。例如,可以使用 GPU 处理主要的计算密集型任务,而使用CPU 处理数据预处理和后处理等任务,通过合理的任务分配,实现整体性能的提升。6.1.2 大模型搜索与推荐大模型搜索与推荐大模型技术在搜索与推荐领域的应用正在深刻改变传统的信息获取方式。传统搜索主要基于关键词匹配,难以理解用户的真实意图;而基于大模型的搜索则通过向量检索和语义理解技术,能够更准确地把握用户需求,提供更相关的搜索结果。向量检索技术通过将文本转换为高维向量,计算向量间的相似度来实现语AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 110 义匹配,能够处理语义关系、上下文和数据的丰富语义信息,适用于处理图像、音频、视频等多种数据类型。大模型在搜索和推荐领域的应用范式转变在推荐系统领域,大模型通过深度理解用户行为和内容特征,实现了更精准的个性化推荐。传统的推荐系统主要依赖协同过滤和特征工程,而大模型推荐则能够直接从原始数据中学习用户和内容的深层表示,捕捉更复杂的关联关系。例如,通过构建用户与内容的交互图,利用图神经网络学习节点表示,可以实现更精准的推荐效果。目前全球主要的搜索厂商,百度、谷歌均对原始的搜索方式与大模型进行了整合,搜索结果页面除了传统的网页索引外,还在搜索结果顶部给出了大模型的直接结果供用户参考。腾讯在微信内部搜一搜也集成了大模型搜索结果,预计未来会更进一步增加大模型搜索权重。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 111 异构算力在大模型搜索与推荐中的关键作用异构算力在大模型搜索与推荐系统中主要支持向量检索和语义计算等密集型任务。GPU/ASIC 加速推荐系统推理,特别是在向量相似度计算、图神经网络推理等场景下,能够提供数十倍甚至上百倍的加速效果。在实际部署中,通常采用 CPU GPU 的异构架构,CPU 负责业务逻辑和数据预处理,GPU 负责向量计算和模型推理,通过合理的任务划分和数据流水线,实现系统整体性能的最优化。6.2 金融与医疗金融与医疗6.2.1 智能风控与投研智能风控与投研金融行业是大模型技术的重要应用领域,智能风控和智能投研是两个典型场景。在智能风控方面,大模型与知识图谱的结合展现出强大能力。金融机构通过构建金融知识图谱来进行市场数据及基本面分析,通过自然语言处理、关联关系分析、行业产业知识推理等为动态、多维度的基本面分析做支持。在信贷风控的业务实现中,通常需要搭建知识图谱分析平台,梳理现有一方数据,整合必要的三方数据后导入知识图谱数据库,建立知识图谱风控流程和预警体系。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 112 智能风控流程与大模型大模型在金融风控中的优势在于能够处理非结构化数据,如新闻、公告、社交媒体等信息,从中提取风险信号。通过深度学习技术,大模型能够识别复杂的欺诈模式和异常行为,实现实时风险监测和预警。在实际应用中,金融机构通常将大模型与传统风控系统结合,形成多层次的风控体系,既利用大模型的语义理解能力,又保持传统系统的稳定性和可解释性。异构算力在金融风控场景中主要支持低延迟推理和高并发处理。寒武纪MLU 等国产 AI 芯片在金融客户案例中表现出色,特别是在实时风险监测、交易反欺诈等对延迟敏感的场景。通过异构计算架构,可以实现毫秒级的风险评估和决策响应,满足金融业务对实时性的高要求。同时,异构算力的高并发处理能力,使得系统能够同时处理大量交易和用户行为数据,实现全方位的风险覆盖。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 113 大模型在智能投研中的应用在智能投研方面,大模型通过提供具有针对性的提示,能够更加深入地分析市场数据,为投资决策提供支持。大模型可以快速处理海量财经新闻、公司公告、行业报告等信息,提取关键观点和趋势,辅助投资分析师进行决策。在实际应用中,大模型通常与量化模型结合,形成AI 量化的投资策略,既利用 AI 的信息处理能力,又保持量化模型的纪律性和系统性。6.2.2 医学影像与药物研发医学影像与药物研发医疗领域是大模型技术的另一个重要应用场景,医学影像和药物研发是两个代表性方向。AI 医学影像是人工智能在医疗领域应用最为广泛的场景,率先落地、率先应用、率先实现商业化。在 GPU 的加持下,智能医学影像平台能支持数百万的医学影像数据的训练;同时基于训练的人工智能模型,可快速实现脑部、心脏以及身体各器官疾病的辅助诊断,大大提高了诊断效率和准确性。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 114 医学影像与 AI 辅助诊断在医学影像处理中,异构算力主要支持多模态数据处理和复杂模型推理。医学影像通常包括 CT、MRI、X 光等多种模态,每种模态的数据特点和诊断需求各不相同。异构计算架构通过不同类型处理器的协同工作,能够高效处理这些多样化的数据类型。例如,可以使用 GPU 处理 3D 卷积等计算密集型任务,而使用 FPGA 处理数据预处理和后处理等任务,通过合理的任务分配,实现整体处理效率的最优化。AI 与异构算力驱动药物研发AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 115 药物研发是另一个受益于大模型和异构算力的领域。人工智能与药学的交叉融合是重塑传统新药研发路径和范式的重要驱动力。首先,人工智能与药学的交叉融合有助于形成智慧化靶点发现系统,通过跨物种基因调控网络分析和分子模拟,加速潜在药物靶点的发现。其次,大模型可以预测分子结构与生物活性之间的关系,指导药物分子的设计和优化。最后,大模型还可以预测药物的毒副作用和药代动力学特性,减少实验失败的风险。异构算力在药物研发中主要支持分子模拟和虚拟筛选等计算密集型任务。分子模拟需要计算分子间的相互作用力,预测分子的三维结构和动态行为,计算量巨大。异构计算架构通过 GPU 等专用加速器,可以显著加速分子动力学模拟和量子化学计算,将原本需要数月甚至数年的计算任务缩短到几天或几小时。在实际应用中,药物研发机构通常构建大规模异构计算集群,支持多个研发项目的并行计算需求,大大加速了新药研发进程。6.3 自动驾驶与智能制造自动驾驶与智能制造6.3.1 车规级车规级 AI 芯片与边缘计算芯片与边缘计算自动驾驶是 AI 技术最复杂的应用场景之一,对算力、能效、可靠性等方面都提出了极高要求。近年来,大模型推理从云端走向边缘侧,已成为人工智能落地的重要趋势。相比传统规则式或轻量模型算法,车载大模型具备更强泛化能力和语义理解力,但其高算力需求一直是制约其广泛应用的主要因素。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 116 车规级 AI 芯片是支持车载大模型推理的关键硬件。寒武纪行歌是寒武纪切入车载智能芯片的主体,致力于成为安全可靠的智能车载芯片引领者,用 AI 芯片支撑自动驾驶更快升级。寒武纪行歌提供的车载智能芯片是一个异构芯片,不仅包括 AI 模块,还包括 CPU、GPU 等多种计算单元,形成完整的异构计算架构。通过车云协同,能够将车端的数据快速回传,实现 AI 模型的快速迭代升级。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 117 边缘计算在自动驾驶中扮演着重要角色。自动驾驶系统需要在毫秒级时间内处理大量传感器数据,做出驾驶决策,这对计算延迟提出了极高要求。边缘计算通过在车辆本地部署计算能力,避免了数据传输到云端再返回的延迟,满足了实时性要求。同时,边缘计算也可以在网络连接不稳定或断开的情况下保持基本功能,提高了系统的可靠性。异构算力在自动驾驶中主要支持传感器数据处理、环境感知、路径规划等任务。自动驾驶系统需要处理摄像头、激光雷达、毫米波雷达等多种传感器的数据,每种数据类型和处理需求各不相同。异构计算架构通过不同类型处理器的协同工作,能够高效处理这些多样化的计算任务。例如,可以使用 GPU 处理图像识别和目标检测等并行计算任务,使用 CPU 处理路径规划和决策等串行任务,使用FPGA 处理传感器数据预处理等专用任务,通过合理的任务分配,实现系统整体性能的最优化。6.3.2 工业质检与数字孪生工业质检与数字孪生工业质检是 AI 技术在制造业中的重要应用,通过视觉检测技术自动识别产品缺陷,提高质检效率和准确性。AI 工业检测是利用基于深度学习、大模型等AI 技术的视觉检测技术,在工业生产过程中对产品图像进行视觉检测,从而帮AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 118 助发现和消除缺陷。通过大模型技术,工业质检智能化已成数字化转型的核心战场,通过 3D 视觉 AI 算法实现检测效率提升 300%,在汽车零部件、家电、半导体等行业都有成功应用。工业质检与 AI 视觉检测视觉质检大模型是工业质检的最新发展方向。与传统的小模型相比,大模型具有更强的泛化能力和更高的检测精度,能够适应更复杂的产品缺陷和更多的生产场景。在实际应用中,视觉质检大模型通常需要针对特定行业和产品进行微调,以适应不同的检测需求。异构算力在视觉质检中主要支持图像预处理、特征提取、缺陷分类等计算密集型任务,通过 GPU 等专用加速器,可以实现实时的检测速度,满足生产线的高节拍要求。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 119 数字孪生与异构算力数字孪生是智能制造的另一项关键技术。数字孪生是指充分利用物理模型、传感器、运行历史等数据,集成多学科、多尺度的仿真过程。通过构建产品数字孪生模型,通过实时采集来分析产品运行、工况和环境数据,监控物理产品运行状态,以及进行功能、性能衰减分析,从而对产品效能分析、寿命预测、故障诊断等提供支持。异构算力在数字孪生中主要支持实时仿真、数据分析和可视化等任务。数字孪生系统需要实时处理大量传感器数据,更新仿真模型,并进行可视化展示,计算量巨大。异构计算架构通过不同类型处理器的协同工作,能够高效处理这些多样化的计算任务。例如,可以使用 GPU 进行物理仿真和渲染计算,使用 CPU 进行数据管理和业务逻辑处理,使用 FPGA 进行传感器数据采集和预处理,通过合理的任务分配,实现系统整体性能的最优化。边缘异构算力在工业场景中具有特殊价值。工业场景通常对实时性、可靠性和安全性有高要求,边缘计算通过在工业现场部署计算能力,避免了数据传输到云端再返回的延迟,满足了实时性要求。同时,边缘计算也可以在网络连接不稳AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 120 定或断开的情况下保持基本功能,提高了系统的可靠性。在工业场景中,异构算力通过整合 GPU、FPGAs、ASICs 等不同计算单元,形成多模态算力供给,满足工业智能化进程中多样化的计算需求。七、挑战、趋势与展望七、挑战、趋势与展望7.1 主要挑战主要挑战7.1.1 算力供给与需求缺口算力供给与需求缺口当前,AI 大模型与异构算力融合发展面临的首要挑战是算力供给与需求之间的巨大缺口。随着大模型参数规模从千亿级迈向万亿级,训练算力需求呈现指数级增长,而高端芯片产能却面临严重瓶颈。一方面,全球仅少数厂商具备稳定量产高端 AI 芯片的能力,技术壁垒导致产能短期难以填补需求真空;另一方面,地缘政治因素加剧了供应链不确定性,使得算力供给更加紧张。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 121 国产替代进程中的技术壁垒是另一大挑战。尽管中国在 AI 芯片设计领域取得了显著进展,但在先进制程制造、高端封装测试等环节仍存在明显短板。现阶段,中国在算力供给方面仍存在关键技术国产化水平不足、应用支撑多样化能力欠缺等问题,亟待加快推动数据中心相关芯片的核心技术攻关,以逐渐形成产业自主可控能力。高端 PCB(印刷电路板)等配套材料的供给短缺也是制约因素。AI 硬件升级引爆了高端 PCB 需求,供应链已现缺口。供给端面临产能瓶颈,一是技术壁垒制约,高端产品全球仅少数厂商具备稳定量产能力;二是原材料供应受限,特殊基板材料、高频高速材料等关键材料对外依存度高。这些因素共同导致了算力供给与需求之间的结构性矛盾。7.1.2 软件生态成熟度软件生态成熟度AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 122 软件生态成熟度是制约异构算力广泛应用的另一大挑战。尽管国产 AI 芯片在硬件性能上逐步追赶国际领先水平,但其软件生态与主流开发框架兼容性不足,开发者需针对不同芯片重新编写代码,这大大提高了开发成本和技术门槛。以昇腾、寒武纪等为代表的国产 AI 芯片,虽然性能不断提升,但在软件栈的完整性、工具链的易用性、开发社区的活跃度等方面仍与国际领先水平存在差距。国产芯片软件栈兼容性问题尤为突出。目前,主流 AI 框架如 PyTorch、TensorFlow 等主要针对 NVIDIA CUDA 生态进行优化,国产芯片需要通过适配层或插件机制才能支持这些框架,这不仅影响了性能,也增加了开发复杂度。例如,框架 dtype 与编译工具支持未完全成熟:PyTorch 核心层面对某些基础类型(如E8M0、FP4)的支持仍在推进中,这限制了新型低精度计算在国产芯片上的应用。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 123 开发者工具链的完善度也是关键挑战。工具链的成熟度直接决定开发者的选择。虽然国产 AI 芯片软件生态从框架到工具链日趋完善,成熟度显著提升,华为昇腾 CANN 全面开源,但与国际领先水平相比,国产芯片的工具链在调试功能、性能分析、自动化优化等方面仍有不足。从能用到好用,国产芯片工具链还有很长的路要走,需要持续投入研发资源,降低开发门槛,提升开发者体验。7.1.3 能效与绿色计算能效与绿色计算能效与绿色计算是 AI 大模型与异构算力融合面临的可持续发展挑战。大模型训练和推理的巨大能耗与全球双碳目标形成矛盾,如何降低 AI 系统的能耗,实现绿色计算,成为行业必须解决的问题。数据中心电能利用效率(PUE)是衡量绿色计算水平的关键指标,传统数据中心的 PUE 值通常在 1.5-2.0 之间,意味着大量的能源被消耗在散热等非计算任务上。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 124 液冷技术是降低数据中心能耗的重要手段。相对于直接用电制冷散热,采用液冷技术不仅节约能源消耗,而且还有效地减少用电制冷过程中 34 倍的碳排放,从而达到算力运营的绿色化。液冷可提高处理高密度热量的效率,实现精确的温度控制并降低能耗。然而,液冷技术的推广面临技术复杂度高、初期投资大、运维难度增加等挑战,需要产业链各方共同努力推动技术成熟和成本下降。可再生能源的应用是绿色计算的另一重要途径。绿色数据中心还经常使用太阳能和风能等可再生能源,通过提高 PUE 值和增加可再生能源比例,数据中心显著降低了碳足迹,并重视废旧电子设备的回收再利用。然而,可再生能源的间歇性和不稳定性给数据中心供电带来了新挑战,需要配备储能系统和智能能源管理系统,确保供电的稳定性和可靠性。7.1.4 数据安全与隐私保护数据安全与隐私保护数据安全与隐私保护是 AI 大模型应用中的关键挑战,特别是在金融、医疗AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 125 等敏感领域。大模型的训练需要大量数据,而这些数据往往包含个人隐私和商业机密,如何在利用数据价值的同时保护隐私安全,成为技术和法律层面的双重挑战。联邦学习与差分隐私是应对这一挑战的重要技术手段。联邦学习允许在数据不出本地的情况下进行模型训练,有效保护了数据隐私;差分隐私则通过在数据或模型中添加噪声,防止个体信息被推断出来。在联邦学习的框架下,使用差分隐私技术可以进一步增强对数据隐私的保护。例如,在模型参数的共享过程中,可以采用差分隐私算法对参数进行加密和扰动,以防止攻击者通过分析参数反推出原始数据。然而,联邦学习与差分隐私技术在实际应用中面临诸多挑战。联邦学习的通信开销大、收敛速度慢,特别是在大模型场景下更为明显;差分隐私则需要在隐私保护和模型精度之间做出权衡,过强的隐私保护可能导致模型性能下降。此外,这些技术的安全性也需要持续验证,新型的隐私攻击手段不断出现,需要相应的防御技术进行应对。合规性要求对算力架构也提出了新要求。随着数据安全法个人信息保护法等法律法规的实施,AI 系统的数据处理和模型训练必须符合严格的合规AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 126 要求。这可能影响算力架构的设计,例如需要支持数据加密、安全多方计算、可信执行环境等功能,增加了系统复杂度和性能开销。如何在保证合规性的前提下维持系统性能,是算力架构设计面临的新挑战。7.2 技术趋势技术趋势7.2.1 芯片与封装技术芯片与封装技术Chiplet 与先进封装技术是应对摩尔定律放缓的重要趋势。Chiplet(芯粒)技术允许将不同功能、不同工艺制造的小芯片通过先进封装技术互联形成大芯片,将大面积芯片成本从晶圆制造环节转嫁到封装环节,提升大面积芯片良率。英伟达 GH200、GB200 和 AMD MI300 均采用 CPU GPU Chiplet 异构方案,异构集成为算力芯片发展趋势。Chiplet 异构集成含有异构和异质两重含义,为 AI 算力芯片提供了新的发展路径。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 127 存算一体技术是突破内存墙的关键方向。传统计算架构中,数据在存储单元和计算单元之间频繁移动,造成大量能耗和延迟。存算一体技术通过在存储单元中集成计算功能,大幅减少数据移动,提高能效比。近年来,面向人工智能等新兴领域,采用存算一体、模拟计算、数字化模拟射频电路、芯粒集成等新途径有望突破芯片光刻面积的极限和工艺制约,为算力提升开辟新道路。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 128 光计算与量子计算代表了更远期的技术方向。光计算利用光子代替电子进行信息处理,具有高速、低功耗、抗电磁干扰等优势,特别适合大规模并行计算;量子计算则利用量子力学原理,在特定问题上具有指数级加速能力。虽然这些技术目前仍处于早期发展阶段,但它们为解决 AI 算力瓶颈提供了全新的思路。发展面向先进集成技术,量子计算与光计算的智能 EDA 工具,将成为未来芯片设计的重要方向。7.2.2 大模型技术演进大模型技术演进多模态与轻量化是大模型技术演进的重要趋势。多模态大模型能够同时处理文本、图像、音频、视频等多种类型的数据,实现更全面的理解和生成能力。商汤科技发布的悟能具身智能平台以商汤具身世界模型为核心引擎,依托商汤大装置提供端侧和云侧算力支持,能够为机器人、智能设备提供强大的感知、视觉导航及多模态交互能力。轻量化则关注如何在保持模型性能的同时减小模型规模AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 129 和计算需求,使大模型能够在边缘设备和移动终端上高效运行。端侧化是另一重要趋势。随着边缘计算能力的提升,大模型正从云端向边缘端迁移,实现更低的延迟和更好的隐私保护。深圳和北京等地纷纷发布具身智能机器人技术创新与产业发展行动计划,强调研制机器人端侧计算芯片及模组,推进国产化替代。端侧大模型面临的主要挑战是计算资源和能耗限制,需要通过模型压缩、量化、剪枝等技术,以及专用 AI 芯片的硬件加速,实现高效部署。世界模型与具身智能代表了更前沿的发展方向。世界模型旨在构建对环境的内部表征,实现更智能的决策和规划;具身智能则强调 AI 系统与物理世界的交互,通过感知、行动和反馈实现智能行为。深圳市科技创新局印发的深圳市具身智能机器人技术创新与产业发展行动计划(2024-2026 年)提出,基于世界模型及视觉-触觉-语言-动作(VTLA)等多模态输入输出,构建具备交互、预测与决策能力的具身智能基座大模型及其训练、推理技术体系,形成长序列推理能力。这些新兴方向将对算力提出更高要求,推动异构计算技术的进一步创新。7.2.3 算力网络与交易算力网络与交易AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 130 算力网络是未来算力基础设施的重要形态。算力网络就是一种在云、边、端之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。随着互联网、大数据、云计算、人工智能、区块链等技术创新,数据经济的发展将推动海量数据产生,数据处理需要云、边、端协同的强大算力和广泛覆盖的网络连接。算力网络的目标是让算力像水电一样成为按需调度的基础设施,为各类应用提供无处不在的计算能力。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 131 算力交易市场的发展将促进算力资源的优化配置。随着算力需求的多样化,不同类型、不同规模的算力资源需要通过市场机制进行高效分配。算力交易平台将连接算力提供方和需求方,通过价格信号调节供需平衡,提高资源利用效率。未来,我们可能会看到更加专业化的算力交易市场,如针对 AI 训练的算力市场、针对实时推理的算力市场、针对边缘计算的算力市场等,形成更加精细化的算力交易生态。算网平台(https:/ 产业与生态展望产业与生态展望7.3.1 国产异构算力产业链国产异构算力产业链国产异构算力产业链正在加速完善,形成从芯片设计、制造、封测到软件、应用的全链条生态体系。长三角、珠三角、成渝地区将形成三大数字 IC 产业集群,涵盖设计、制造、封测、设备、材料等全产业链环节。例如,某产业园区通AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 132 过链主企业 配套企业协同模式,构建了完整的产业生态,提高了整体竞争力。AI 算力芯片行业的核心为芯片设计和芯片制造,芯片设计工具厂商、晶圆代工厂商与封装测试厂商为 AI 算力芯片提供了研发工具和产业支撑。在芯片设计环节,国内已涌现出一批具有竞争力的企业,如寒武纪、昇腾、海光、壁仞等,在 AI 芯片架构创新方面取得突破;在制造环节,虽然先进制程仍存在差距,但在成熟制程和特色工艺方面已具备一定能力;在封装测试环节,国产光学检测、离子注入等方面取得突破,晶圆级封装、3D 封装和测试设备已应用于先进封装产线;在软件和 EDA 工具方面,华大九天等企业已开发出部分EDA 工具,覆盖了从设计到产业应用的完整链条。政策支持是国产异构算力产业链发展的重要推动力。国家层面出台了一系列政策支持 AI 芯片和算力基础设施发展,地方政府也通过产业基金、人才政策、应用示范等方式支持本地产业发展。随着行业需求激增以及人工智能时代到来,2024 年我国半导体设备国产化率约为 50%,国产芯片自给率要达到 70%的目标正在稳步推进。7.3.2 开发者生态繁荣开发者生态繁荣开发者生态是异构算力与大模型融合发展的关键支撑。随着国产异构算力产品的不断丰富,开发者生态建设日益重要。开源社区、培训认证、开发者大赛等形式是促进开发者生态繁荣的有效途径。华为昇腾社区、寒武纪开发者社区、算泥开发者社区等平台通过提供丰富的开发资源、技术支持和交流机会,吸引了大量开发者参与,形成了活跃的开发者社区。培训认证体系是培养专业人才的重要手段。随着 AI 技术的快速发展,市场对 AI 开发人才的需求激增,但具备异构算力开发经验的专业人才相对稀缺。建立完善的培训认证体系,通过系统化的课程学习和实践项目,培养一批掌握异构算力开发技能的专业人才,对推动技术普及和应用落地具有重要意义。国内高校和企业已经开始合作开设 AI 芯片和异构计算相关课程,为产业输送人才。开发者大赛是促进技术创新和生态建设的重要平台。通过举办面向异构算力和大模型的开发者大赛,可以激发创新活力,发掘优秀人才和项目,促进技术交流与合作。算泥社区等平台通过定期举办开发者大赛、技术沙龙、开源项目等活动,构建了开放、协作的开发者生态,推动了异构算力与大模型融合技术的创新和应用。未来,随着开发者生态的不断繁荣,我们将看到更多基于国产异构算力的创新应用涌现,推动整个产业的健康发展。AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 133 7.3.3 算力普惠与行业渗透算力普惠与行业渗透算力普惠是 AI 技术广泛应用的必要条件。当前,大模型训练和推理的高成本限制了技术的普及,特别是对中小企业和传统行业而言。推动算力普惠,降低AI 技术的使用门槛,是实现 AI 技术广泛渗透的关键。算力普惠包括多个层面:一是降低算力成本,通过技术进步和规模效应降低算力价格;二是提高算力可及性,通过云服务、算力网络等方式让算力触手可及;三是简化使用难度,通过友好的开发工具和平台降低技术门槛。行业渗透是算力普惠的具体体现。随着算力成本的降低和使用门槛的下降,AI 技术正在向更多行业渗透,从互联网、金融等数字化程度高的行业,向制造、农业、医疗、教育等传统行业扩展。在制造业,AI 技术被用于产品设计、生产优化、质量控制等环节;在农业,AI 技术被用于精准种植、病虫害识别、产量预测等场景;在医疗领域,AI 技术被辅助诊断、药物研发、健康管理等方面。这些传统行业的 AI 应用,往往对算力的成本、易用性、可靠性有更高要求,推动了异构算力技术的进一步优化。算力普惠与行业渗透将形成良性循环。随着更多行业采用 AI 技术,算力需求将进一步增长,推动算力基础设施的规模扩张和技术进步,从而进一步降低算力成本,促进更广泛的应用。在这个过程中,异构算力通过提供多样化、高效率、低成本的算力选择,将发挥关键作用。未来,我们有望看到 AI 技术像电力、互联网一样,成为各行各业的基础设施,为经济社会发展提供强大动力。八、附录八、附录8.1 名词解释名词解释8.1.1 异构计算异构计算异构计算是指在同一计算系统集成不同类型或架构的处理单元,以便更有效地执行不同类型的任务。异构计算通过组合 CPU、GPU、FPGA、ASIC 等不同特性的计算单元,发挥各自的优势,实现更高的性能和能效。根据组合方式的不同,异构计算主要分为三类:CPU GPU、CPU FPGA 和 CPU ASIC。异构计算的核心优势在于能够利用各类芯片的特点,针对不同计算任务选择最合适的处理单元,从而实现整体性能的最优化。8.1.2 AI 大模型大模型AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 134 AI 大模型是指参数规模巨大(通常在亿级以上)的人工智能模型,通过在海量数据上训练,具备强大的表示学习和泛化能力。大模型的参数规模从亿级到万亿级不等,训练算力需求每 6.2-10 个月翻一番,远超传统摩尔定律。大模型通常基于 Transformer 等深度学习架构,能够处理自然语言、图像、音频等多种模态的数据,在语言理解、内容生成、知识问答等任务上表现出色。代表性的大模型包括 GPT 系列、Llama 系列、Qwen、GLM 等。8.1.3 训练与推理训练与推理训练与推理是 AI 模型的两个主要阶段。训练是指通过大量数据调整模型参数,使模型能够学习数据中的模式和规律的过程。大模型训练通常需要大规模计算集群支持,计算量大、耗时长、成本高。推理是指利用训练好的模型对新数据进行预测或生成结果的过程。推理更注重低延迟、高并发和能效比,在实际应用中的算力总需求已超过训练。训练和推理对算力的需求特点不同,需要采用不同的优化策略和硬件配置。8.1.4 算力密度与能效算力密度与能效算力密度是指单位体积或单位面积内提供的计算能力,通常用 FLOPS/cm或 FLOPS/cm2等单位表示。高算力密度意味着在有限空间内提供更强大的计算能力,对于数据中心和边缘计算场景尤为重要。能效是指计算设备在执行计算任务时的能源利用效率,通常用 TOPS/W(每瓦特功耗提供的万亿次运算次数)表示。高能效意味着在相同计算任务下消耗更少的能源,对于降低运营成本和实现绿色计算具有重要意义。PUE(Power Usage Effectiveness)是数据中心能效的重要指标,指数据中心总能耗与 IT 设备能耗之比,理想值为 1.0。8.2 参考文献参考文献8.2.1 国内外权威报告国内外权威报告1 中国信息通信研究院.中国算力发展报告(2024 年)2 中国信息通信研究院.先进计算暨算力发展指数蓝皮书3 中国信息通信研究院.综合算力评价研究报告4 中国信息通信研究院.中国绿色算力发展研究报告(2023 年)5 工信部等六部门.算力基础设施高质量发展行动计划6 欧盟委员会.欧洲芯片法案(EU ChipsAct)7 美国国会.CHIPS 法案AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 135 8 OpenAI.GPT-4 技术报告9 Meta.Llama 2 模型报告10寒武纪.寒武纪年度报告8.2.2 学术论文与技术文档学术论文与技术文档1 Sevilla,J.,et al.Compute Trends Across Three Eras of Machine Learning.arXiv preprint arXiv:2202.05924(2022).2 Vaswani,A.,et al.Attention is all you need.Advances in neuralinformation processing systems 30(2017).3 Raffel,C.,et al.Exploring the limits of transfer learning with a unifiedtext-to-text transformer.J.Mach.Learn.Res.21(2020):1-67.4 Brown,T.,et al.Language models are few-shot learners.Advances inNeural Information Processing Systems 33(2020):1877-1901.5 Huawei.Ascend CANN Developer Guide.6 Cambricon.Cambricon Neuware Software Stack Documentation.7 NVIDIA.NVIDIATensorRT Documentation.8 TensorFlow.TensorFlow Extended:An end-to-end platform for productionmachine learning.9 PyTorch.PyTorch Documentation.10Kubernetes.Kubernetes Documentation.8.3 致谢致谢8.3.1 行业专家与企业支持行业专家与企业支持本白皮书的编写得到了众多行业专家和企业的大力支持,在此表示衷心感谢。特别感谢寒武纪技术团队、华为昇腾团队在 AI 芯片和软件生态方面的宝贵资料;感谢阿里云、腾讯云等云服务商在智算中心建设和实践方面分享的经验;感谢开源社区在开发者生态建设方面的贡献。同时,感谢中国信息通信研究院、中国电子技术标准化研究院等研究机构在行业数据和洞察方面的支持;感谢清华大学、北京大学、中国科学院等高校和科研院所的专家学者在技术理论方面的资料参考;感谢所有参与白皮书评审和提出宝贵意见的各位专家,你们的专业见解使本白皮书更加完善和权威。8.3.2 开源社区与开发者开源社区与开发者AI 大模型与异构算力融合技术白皮书大模型与异构算力融合技术白皮书 136 本白皮书也得益于众多开源社区和开发者的贡献。感谢 PyTorch、TensorFlow、MindSpore 等深度学习框架社区,为 AI 开发提供了强大的工具支持;感谢 MLIR、TVM、XLA 等编译器框架社区,推动了异构计算技术的发展;感谢 Llama、Qwen、ChatGLM 等开源模型社区,促进了大模型技术的普及和创新。特别感谢算泥社区的贡献者和 MVP 专家们,你们在社区建设、技术分享、开发者支持等方面的辛勤工作,为 AI 大模型与异构算力融合技术的推广做出了重要贡献。感谢所有在 GitHub、Gitee 等平台上分享代码、文档和经验的开源开发者,你们的开放精神和协作态度是技术进步的重要动力。最后,感谢所有关注和支持本白皮书的读者,你们的关注和反馈是我们持续改进的动力。我们期待与各方继续合作,共同推动 AI 大模型与异构算力融合技术的发展,为中国 AI 产业的自主可控和高质量发展贡献力量。
2025-10-13
144页




5星级
1警惕 AI“信口开河”:大语言模型幻觉控制能力深度测评报告警惕 AI“信口开河”:大语言模型幻觉控制能力深度测评报告蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣11香港大学经管学院,2西安.
2025-10-09
12页




5星级
1|2025 爱分析大模型厂商全景报告2|2025 爱分析大模型厂商全景报告报告编委报告编委报告指导人报告指导人张扬爱分析联合创始人&首席分析师报告执笔人报告执笔人李进宝爱分析高级分析师3|2025 .
2025-09-30
69页




5星级
大模 型背景下高等教育数智化转型研究报告智 慧 之 钥 解 锁 未 来 潜 能编委会主编孙鹏飞 吴永和 范小骞副主编肖玉敏 吴战杰 陈 浩 党张波 赵 爽编委会委员曹 鹏 陈慧娟 黄和平 谭 方编者(.
2025-09-22
132页




5星级
面向具身智能的大小脑模型协同算法研究及实践盛律|软件学院2025-08-231具身智能的基本概念基于物理载体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从.
2025-09-19
37页




5星级
CONTENTS目 录01 概述1425133.1.安全挑战应对策略3.2.千帆平台安全保障框架5.1.基于混合云网络通过客户内网调用千帆大模型4.1.千帆平台安全4.2.千帆模型安全4.3.千帆数据.
2025-09-14
17页




5星级
大模型与边缘智算融合发展白皮书(2025 年)发布单位:中移智库中国通信学会边缘计算专业委员会编制单位:中国移动通信研究院前前言言本白皮书旨在针对大模型与边缘智算融合所面临的机遇与挑战,提出边缘智算的.
2025-09-04
34页




5星级
大语言模型中的事实性幻象中国人民大学 李军毅1背景2人工智能历史上最为强悍的“信息助手”背景3“解决”了很多传统方法的痛点问题背景 ChatGPT等大模型的问题 Knowledge Recency:大.
2025-09-04
45页




5星级
11中邮证券人工智能研究框架:大模型白热化,应用加速分化证券研究报告行业投资评级:强于大市维持陈涵泊/李佩京/王思中邮证券研究所 人工智能团队发布时间:2025-09-032投资要点大模型:加速多模态.
2025-09-04
31页




5星级
大模型赋能下一代AI防火墙安全能力再升级目录一、生成式人工智能时代来临,企业安全态势喜忧参半1.1 全球大模型市场快速发展1.2 大模型与网络安全结合带来新挑战和新机遇1.3 安全合规监管要求持续提升.
2025-09-01
35页




5星级
AI原生开启金融智能新未来 金 融 行 业 大 模 型 应 用 落 地 白 皮 书目录前言第一章:大模型开启金融行业全新智能时代1.1 大模型驱动金融机构全面加速智能化转型1.2 强推理和多模态、多个模型深度配合与内外部协同的智能体推动金融走向智能化1.3 金融领域正加速迈向基于AI原生的智能重构阶段第二章:从“单点探索”迈向“战略深化”:金融行业大模型落地面临多重挑战2.1 异构算力管理复杂,算力调度缺乏灵活性2.2 高质量数据价值难以挖掘,飞轮效应尚未形成2.3 通用模型难以满足复杂金融业务的应用需求2.4 智能体难以穿透金融系统的业务流程、运营复杂度高2.5 安全能力尚待体系化突破,金融机构多持审慎落地策略2.6 模型应用效果难以评估,金融机构对大模型的长期价值尚存顾虑2.7 业-技融合的敏捷组织尚未成熟,复合型人才稀缺第三章:从技术到场景:金融行业AI原生应用的的重构与破局之路3.1 金融领域呈现出通用场景向专精场景的演进趋势.AI原生能力重构体系化适配金融行业智能需求3.3 七大核心要素助力金融机构打造AI原生应用第四章:领先实践:金融机构大模型开发与应用案例4.1 某国有银行AI PaaS平台让零售业务迈入“秒级”时代4.2 重庆农商行依托百度智能云企业级金融AI中台,打造代码规范的最佳实践4.3 泰康保险集团股份有限公司AI综合解决方案大幅提升核保核赔自动化率4.4 银河证券大模型拓宽证券业务边界第五章:金融行业大模型落地建议:多方协同构建“战略-支撑-生态-监管”四位一体保障体系5.1 金融机构:构建“战略精准-执行适配-风控闭环”的系统能力5.2 技术服务商:提供“算力效能-平台易用-模型工程化-场景赋能”的全栈支撑5.3 产业生态:共建“标准统一-产学研协同-产业链联动”的协同体系 5.4 规范引领:强化“政策引导-工具迭代-标准牵头”第六章:关于百度智能云 金融行业“双智能 双引擎”方案6.1“双智能”应用层重构金融服务新体验6.2“双引擎”技术基座驱动智能应用的强大动力前言从“感知推理”到“自主进化”,算法技术突破进入深水区。2025年,大模型算法的核心跃迁是从“被动处理任务”转向“主动进化策略”,金融行业作为数据密集型和计算密集型的典型应用场景,迎来了深度变革的历史机遇。全球头部玩家通过算法创新直接解决金融场景的“长文本、高实时、强专业”痛点。OpenAI GPT-:强化“长文本因果推理”能力(支持10万token以上上下文),突破金融机构对“超长篇幅风控/投研文档”的处理瓶颈,Google Gemini.:升级“多模态动态交互”算法,实现“文本-图表-数据”的实时联动高盛用其构建“动态利率走势模型”。AlphaEvolve自主进化算法:通过“生成式策略优化(GSO)”实现模型自动迭代。国内,百度文心4.5和X系列模型、DeepSeekVR等大模型,正以多模态 长思维链推理 智能工具调用执行架构融合,实现“能思考、会落地”的大模型。金融行业拥有独特、高质量、大规模的行业数据,核心护城河已不再是“应用好某个开源模型”或“落地单一应用”,而是要构建“场景-算法-数据”的深度协同体系,构建知识壁垒 行业场景深度融合,训练出真正好用的Agent,实现核心业务场景AI原生化改造。从技术尝鲜到价值优先,“核心业务与AI的融合深度”已成为金融机构的核心竞争力。大模型凭借对非结构化数据向量化处理以及强大的意图理解和推理能力,在面向员工的场景中优势明显,如知识问答、内容生成(金融报告辅助撰写)、智能办公(投研资料汇总)等;在面向客户的业务场景中,尤其是对深入业务应用场景(信贷、风控、营销)以及对实时性要求较高的场景(实时反欺诈、秒级授信)中,目前面临准确率较低、延迟反馈等问题。专精模型结合金融合规规则库、动态风险因子库,并通过领域数据定制与任务特定优化(如反欺诈模型的算法重构),即可实现深度场景适配。需明确的是,通用大模型在金融专业领域存在天然短板:意图理解不准确、专业知识覆盖不足、问答准确率、幻觉率、可解释性均未达到金融场景的“生产级要求”,IDC认为,未来,为满足金融业务多样化要求,在复杂语义理解领域,大模型将持续发挥优势,专业业务领域将由专精模型提供服务,通用模型与专精模型协同管理与适配的AI解决方案将成为主流。从“技术组件”到“业务赋能平台”,大模型开发工具链降低金融机构的AI使用门槛。2025年,大模型工具的核心升级是“从技术导向转向业务导向”,通过低代码/无代码平台让金融机构快速构建“贴合自身业务的智能体”。金融机构对智能体进入核心业务等需求越来越旺盛,其在智能投研/投顾、信贷决策、风险管理等核心场景中将持续创造更多价值。持续迭代支持MCP/AA的智能体开发平台,以及SFT工具链、场景优化工具链,以满足金融机构的场景创新应用需求。同时在模型管理方面,IDC指出,2025年“通用模型 专精模型”的协同管理将成为主流,工具平台的核心价值是“降低金融机构的AI使用门槛”不再要求金融机构具备“顶级算法团队”,而是通过低代码、模块化工具,让业务人员也能“用AI解决业务问题”,工具从“技术组件”升级为“业务赋能的桥梁”。从“数据驱动”向“知识驱动”跃迁,数据飞轮已成为金融应用AI原生化关键要素唯有将零散数据转化为可复用的结构化知识,并形成“业务-数据-模型”的闭环,才能让大模型真正适配金融领域“高合规、高精准、高动态”的核心要求。金融机构的数据飞轮建设目标是通过打通全链路数据流,实现数据与业务的双向驱动。金融机构正在对金融数据按照敏感度分级,构建可信数据环境,满足合规要求;通过跨模态数据整合与关联分析,实现内外部数据协同,打破金融数据壁垒;构建高质量向量知识库、打造高价值知识工程与场景化数据沉淀来缓解高价值数据稀疏的现状。数据飞轮的构建将促进模型在知识广度、推理深度、领域专业性和鲁棒性等多维度实现系统性升级,使得金融智能系统能够快速响应业务需求变化。从通算向智算演进,规模化异构算力管理已成为大幅提升算力效率的核心路径。随着大模型向GPT-等万亿级参数演进,训练所需算力呈指数级增长,算力架构的“成本-能效平衡”能力愈发关键以异构计算集群、多芯混合训练为代表的方案,因能兼顾高性能与低成本,已成为企业应对超大规模模型算力需求的核心竞争力。针对不同参数量级的模型场景,需精准适配算力方案,实现“算力资源与业务需求”的最优匹配:百亿参数模型场景:单机单卡即可完成推理与微调任务,是性价比最优的选择,而更高算力密度、更大显存的算力机器,则在模型训练微调场景与复杂推理中更具效率优势。而在干亿/万亿参数模型场景,DP(数据并行) EP(专家并行)分离的大集群部署方案通过将数据拆分与专家层分工解耦,可成倍数提升算力利用效率,是突破超大规模模型“算力瓶颈”的必选路径。大模型开启金融行业全新智能时代第一章1.1 大模型驱动金融机构全面加速智能化转型政策层面,我国已给出了明确的指导意见。2024年1月,金融监管总局等七部门联合印发推动数字金融高质量发展行动方案,提出布局先进高效算力体系,强化模型和算法风险管理;2024年12月,我国金融监督管理总局印发了银行保险机构数据安全管理办法,为银行保险机构规范数据处理、保障数据安全、促进数据开发、完善监管效能等方面提供了全面、细致的规范标准;2025年7月31日召开的国务院常务会议,审议通过了关于深入实施“人工智能 ”行动的意见(以下简称意见)。“深入实施”标志着“人工智能 ”行动正式从政策倡导迈入规模化、商业化落地阶段。我国金融IT投入持续增加,根据IDC数据,2024年中国银行业IT投资规模达到1,693.15亿元,同比增长3.6%,预计在2028年将达到2,662.27亿元。2024年中国金融行业生成式AI投资规模为36.26亿元,预计到2028年投资规模为238.04亿元,增幅达到556.5%。图1 2024-2028中国金融行业生成式AI投资规模预测来源:IDC,单位:百万人民币 服务(含IT服务和商业服务)生成式AI应用生成式AI平台基础设施TOTAL在智能时代背景下,我国各类金融机构均加码大模型投入,且各有侧重。国有大行以自主可控为核心,优先保障算力底座自主建设,兼顾千亿级模型再训练与多智能体协同;股份制银行平衡算力成本,侧重模型场景化微调;区域性银行关注低成本算力租用、复用,追求“开箱即用”,保险机构重点关注决策模型与大模型模型配合使用,提升核保核赔效率;证券与基金公司低时延交易与智能投研,侧重高性能算力与金融蒸馏模型,通过AA与MCP协议构建生态。金融大模型开启了金融智能时代的新篇章。随着政策加码,金融大模型技术升级,应用场景的不断丰富,新旧智能时代转换的拐点将至,金融行业的全新智能时代将完成从“工具导向”到“超级生产力”的跨越。表1 不同规模金融机构对大模型的投入偏好与应用策略比较维度国有大行股份制银行区域性银行证券/基金保险典型代表国有六大行招商、中信、浦发、兴业等人保财险、太保财险城商行、农商行券商(中信、华泰、国泰君安等)核心诉求自主可控底座工具链优先核保核赔准确度提升,大小模型配合API调用开源模型低时延交易算力投入策略自建智算中心私有化部署算力,混合云私有化部署算力,提升高可靠性API直接租用银联或云厂商算力,或与总部共享算力自建GPU小集群 混合云参数规模偏好千亿规模以上模型 再训练-B中等规模-B视觉、LLM模型-B小模型B以上金融蒸馏模型数据体系建设全栈数据治理,场景导向的数据标准数据加密与高质量数据标注保单、票据多模态数据处理,核保知识图谱外部数据集,数据不出域投研数据融合,低时延交易数据智能体关注多智能体协同,与核心业务捆绑复杂场景智能编排核保智能体定制开发预置智能体模板,快速上线,降低技术门槛投研智能体1.2 强推理和多模态、多个模型深度配合与内外部协同的智能体推动金融走向智 能化IDC认为,“强推理 多模态”是当前人工智能技术发展的关键方向。仅仅“看懂”多模态数据并不足够,医疗和保险场景等复杂场景更需要较强的因果推理能力。例如:AI不仅要识别票据金额和项目,还要推断这些项目是否与患者诊断、治疗方案一致;在保险定损中,AI需要结合事故图像、维修价格体系、历史理赔数据,推理出最合理的赔付金额。“强推理 多模态”技术通过整合视觉、文本、空间等多维信息与高级逻辑推理能力,正深刻重构AI对物理世界的理解范式,从而满足其在复杂场景中的应用需求。“多个模型”深度配合是增强决策精准度、推动业务创新的关键。大模型适用于对语义理解和自然语言处理要求较高的场景,如智能客服、智能创作、智能营销等,提升深度推理与非结构化数据的处理效率;决策类的小模型专注于对结构化数据精准判别,在快速响应与细分专业场景中有天然优势。IDC认为,大小模型的深度配合,是满足金融机构对多样复杂场景中的模型应用需求、提升金融业务价值的重要方式。同时,通用模型与专精模型相互结合与灵活适配,也是降低模型运行成本,提升模型应用效果的重要策略。某保险公司多模态 强推理辅助智能理赔某保险公司推出基于多模态技术及强推理能力的“车险人伤智能定损机器人”,实现了伤情诊断与赔付标准的自动生成处理,仅需上传伤情照片与索赔材料,即可精准分析伤情、精准计算理赔金额,实现快速赔付,同时还可为伤者提供康复建议等人性化服务,极大提升了该类案件的理赔效率。自2024年3月正式上线启用以来,人伤智能定损机器人的单证分类及伤情识别准确率分别达到95.6%和88.3%。某股份制银行业务场景的AI化升级某股份制银行在财富等业务场景中率先部署AI智能助手,通过大语言模型的知识理解能力与小模型的数据处理优势深度结合,实现了服务模式的智能化升级,能够深度理解客户口头表述中的潜在需求,例如当客户提到“希望稳健增值”时,AI助手不仅能识别风险偏好,还能结合市场行情自动生成包含国债、同业存单等低波动产品的配置方案。该应用显著提升了客户经理的服务效率,使专业财富规划服务得以覆盖更广泛的客群。“内外部协同的智能体”将在复杂的金融业务场景中创造显著价值。内部智能体主要服务于金融机构内部运营,满足内部数据安全与合规要求;外部智能体聚焦零售与对公用户,为用户提供个性化服务,增强用户体验。内外部协同的智能体可以减少金融机构“内部业务闭环”与“外部生态联动”的割裂现象,通过内、外智能体的能力互补与流程协同,可以解决单一智能体难以覆盖复杂业务场景的痛点。某国有银行打造多智能体协同的智能研发体系某国有银行通过强化大模型软件工程长思维链、动态决策和意图理解能力,建成具备需求理解与拆分、方案设计、代码生成、问题修复以及IDE工具调用、命令执行功能的研发垂直领域智能体群,各智能体通过分布式决策、调用路由、知识共享等机制相互协作,形成一支高效AI研发团队,实现AI程序员根据需求自主生成原型工程代码的能力,为金融业务的创新带来突破。该项目的落地使得团队单位时间编码效率提升约23%,月人均完成需求项(feature)增长30%,仅编码环节24年增效价值4069.9万元。1.3 金融领域正加速迈向基于AI原生的智能重构阶段金融行业正在经历从工具赋能向智能重构的战略转型,AI不再仅仅是提升效率的辅助工具,而是成为重构业务模式和生产关系的核心驱动力。从用户需求来看,随着数字原生代成为主流客群和数字化渗透率的持续提升,用户对金融服务的期望发生了根本性转变。他们更加看重超个性化服务,期望获得一对一的个性化服务,而非标准化的产品推荐。而AI大模型在客服、产品推荐等场景的应用,显著提升了客户满意度与忠诚度。AI大模型能够理解用户特定场景下的金融需求,并提供恰如其分的支持。例如,当用户表达想给自己买养老金的需求时,AI能在几秒内生成相关方案。从行业发展来看,IDC认为,随着AI大模型所带来的技术底座重构、交互方式变革等在行业中的深化,AI原生应用已成为金融科技演进的核心方向。与传统金融应用中简单嵌入AI功能不同,AI原生应用是从设计之初就以AI为核心驱动而构建的系统,其每个组件和交互流程都深度整合了人工智能能力,形成了自我演进、持续优化的生态体系。从技术发展来看,一方面,多模态 强推理技术已成为提升AI原生能力的关键。智能体能够整合文本、图像、音频等多种数据类型,显著提升了客户服务精度和风险管理能力。另一方面,智能体架构的成熟是金融AI原生应用发展的关键突破。其作为一种能够自主感知环境、分析信息、做出决策并采取行动以实现特定目标的系统,使得金融服务从被动转向主动,其能够主动规划、分解任务并协调执行复杂金融操作,正重塑金融机构的运营模式和客户体验。广发证券通过易淘金APP的AI原生化升级,率先实现了从综合交易服务工具向全天候智能投资伙伴的跨越,开启了千人千面、所思即所得的智能服务新范式。IDC认为,服务模式重构是AI原生应用对金融行业最深刻的改变。传统金融服务依赖于标准化产品和人工服务,而AI原生应用使得超大规模个性化服务成为可能。从“单点探索”迈向“战略深化”金融行业大模型落地面临多重挑战第二章金融客户对金融行业大模型的关注在不同时期聚焦在不同领域,关注重心经历了算力基础设施、模型训练平台、模型参数规模、提示词工程、知识工程以及智能体运营等阶段,目前金融机构开始关注大模型数据标准、安全体系以及投入产出策略,在落地过程中面临着诸如算力难调用、数据飞轮难打造、模型与场景难适配、智能体与业务难以深度关联、安全合规体系不完善、ROI难衡量、人才难匹配等挑战。2.1 异构算力管理复杂,算力调度缺乏灵活性算力、模型作为数字时代新的操作系统、基础设施普惠化和平权化,面向AI原生应用的算力应用要求算力管理动态化适应不断变化业务场景需求、智能体和模型技术持续演化。因此对于银行典型AI应用开发、大模型训练开发、AI模型统一管理部门,需要构建兼容能力强、具备技术领先的大模型训推加速云原生机制的异构算力管理平台。随着大模型应用的展开,异构算力环境下管理复杂度剧增。一是异构AI框架之间存在技术壁垒,模型在不同框架间迁移转换时,需攻克兼容性问题并重新调试参数,转换成本居高不下;二是早期银行采用算力卡单卡独占的使用模式,当训练或运行的模型规模较小时,单卡算力无法被充分利用,算力资源浪费明显;三是千亿模型集中式部署的使用会带来高昂算力的使用,PD分离分布式成为千亿模型运用的最优方案。图2 大模型在金融领域落地挑战算力管理与调度难度大组织与人才存在短板模型落地效果难以评估安全能力有待提升智能体难以穿透业务流模型与场景适配难度大数据飞轮难以构建2.2 高质量数据价值难以挖掘,飞轮效应尚未形成高质量数据价值难以挖掘金融行业积累了大量具备高准确性、完整性与时效性的优质数据集,但在面向大模型落地应用时,其价值释放仍面临显著挑战。一方面,金融领域的高质量数据包含大量非结构化数据(如信贷申请材料、理赔影像、票据图片、客服通话录音等),这些数据因场景高度碎片化,需经复杂预处理(如OCR/ASR转写、实体对齐)才能构建统一语义表示,导致大模型训练与调优效率显著低于通用数据;另一方面,数据安全与隐私约束下的流通壁垒也限制了数据的共享和流通,这使得部分高质量数据无法在大模型的生态系统中得到充分的利用。因此,高质量数据的挖掘受限于数据处理难度与数据安全约束,导致其难以转化为支撑大模型应用的关键资源。数据飞轮尚未形成数据的采集、清洗、标注、回流及模型再训练需依赖强健的数据管道与算力支撑,然而当前多数机构仍存在高人工参与度问题,导致反馈迟滞,难以实现敏捷迭代。尽管金融机构已建立数据安全策略并开展验证性实践,但因数据合规要求(如未授权数据、金融安全数据与隐私数据需“数据不出域”管控),大模型在调用金融数据时面临多级隔离限制,致使“数据模型业务数据”的飞轮效应难以运转。表2 不同使用阶段金融机构在算力管理应用的挑战 算力部分需要适配多种芯片,确保OS、内核、驱动等端到端兼容性 存储部分要打通多类型存储链路,保障存储层的高性能和安全策略 大规模节点间网络架构不合理,导致不能满足低延迟高可靠的通信需求 干卡GPU长时间并发训练,频繁的硬件故障没有合理的容错机制保障,导致训练有效时长不高 复杂的异构芯片规格、多样的任务类型以及昂贵的基础设施,需要丰富的资源分配和调度策略 训练/推理存储加速技术储备不足,难以快速闭环整体生命周期 流量如何进行弹性容缩,监控推理场景CPU使用率或以定时的方式,按照流量监控的方式讲行伸缩,并规划训练任务的抢占使用挑战使用阶段异构算力管理训推一体 千亿模型PD分离如何快速部署,运维,容灾 多机缓存如何进行KV cache监控千亿模型PD分离大模型训练和推理加速表3 不同类型金融机构在数据领域面临的挑战 自建智算中心面临数据主权与全栈治理难题 千亿级模型再训练缺乏场景导向的数据标准 业界缺乏统一的大模型导向的数据治理标准 Prompt工程缺乏高质量标注数据 多模态数据需要统一处理框架 算力租用模式下数据出域风险 字段加密、多模态数据治理存在技术短板 非结构化数据(理赔影像)向量化能力 投研数据融合难度较高 量化交易低延时与数据一致性冲突 知识工程能力(知识图谱与交易策略)用户数据安全、数据质量与风控管理难题数据挑战金融机构国有大行消金/互金证券/基金保险区域性银行股份制银行2.3 通用模型难以满足复杂金融业务的应用需求通用模型缺乏对于金融业务的深度沉淀。金融业务对精确性的要求远大于通用模型的“概率性输出”。金融业务流程复杂,专业性较强,业务逻辑差异较大(信贷审批需要多系统跳转、银行风控与保险核保),金融业务的强专业属性超出了大模型的逻辑推理边界。因此模型并非缺乏金融知识,而是天然缺乏深度的金融业务沉淀能力,即需要充分掌握金融业务之间的关联,也需要明确金融细分领域的特有规则,这直接提升了通用模型应对复杂金融业务场景的难度。2.4 智能体难以穿透金融系统的业务流程、运营复杂度高智能体工作流与金融业务流程难以对接。智能体的核心优势在于打破系统壁垒,实现跨系统、跨数据、跨部门的业务流程整合与优化。然而,真正要发挥这一优势,就必须深度嵌入金融业务链条,对业务环节的先后逻辑、数据触发条件、风险监控点有高度的掌握。现有智能体对金融业务(信贷、风控、支付结算、理财、核保核赔等)的细粒度环节、行业特有规则、监管要求等缺乏组件调用能力,在嵌入业务工作流的设计能力上仍显不足。智能体运营复杂度较高。智能体的有效运行不仅依赖于稳定的模型性能,还依赖于运营人员具备多维度能力包括AI算法基础、工具调用与协同编排以及对金融业务的理解等。这要求运营团队不仅能掌握智能体调用与编排技术,还能将算法结果与业务目标对齐,包括对数据断点、模型偏差、任务中断等问题及时反馈与修正,复杂度较高。表4 通用模型与专精模型对比 参数规模大、开源模型支持API调用 通用性强、NLP与语义意义理解能力强 场景覆盖范围广 多模态数据融合度高 金融专业适配性不足,对信贷风控规则、投研算法、合规条款理解程度有限 模型幻觉与可解释性缺陷 实时反欺诈、低时延场景响应速度慢 非决策类、辅助类工作场景 金融专业度依赖较低的场景 量化、剪枝后部署在本地,低延时 参数小、再训练可针对场景优化 满足可解释性与安全要求 具备专业金融业务逻辑抽取能力 结构化数据精准分析与判别 可与金融业务系统深度集成融合 场景覆盖局限,难以迁移 复用率低,迭代成本高 数据依赖度高,需要高质量数据 工程化复杂度高,需要与金融业务深度融合并形成自动化流程 决策型、高价值业务场景 与业务深度融合的场景通用模型比较维度技术特征场景适配应用短板核心价值专精模型2.5 安全能力尚待体系化突破,金融机构多持审慎落地策略模型安全能力仍需加强。大模型在幻觉输出、黑盒不可解释性、版本漏洞与对抗攻击等方面仍存在显著风险,直接影响金融业务的稳定性、客户信息安全和系统性风险防控。当前亟待构建覆盖模型全生命周期的安全标准体系,并依托监管推动其强制落地,以实现更系统、可监督的安全治理。数据安全能力亟需强化。数据是金融机构构建业务差异化优势的核心资产,也是大模型应用与训练的基础。然而,业务数据需严格存储在行内系统、不可出境,这一要求与数据驱动创新的诉求形成内在张力。数据安全与业务竞争力实则为相互制约、又需协同推进的双重目标。在这一背景下,金融机构必须构建覆盖数据全生命周期的安全体系,建立完善可溯源、可审计的数据治理机制,涵盖采集、加密传输、存储管理、敏感信息分级、权限控制及操作日志审计等环节。尤其在保障交易数据的强一致性、实现信贷数据的穿透式验证、以及维持舆情数据的高时效性方面,需构建闭环式治理框架,在安全可控的前提下最大化数据价值,支撑业务差异化竞争。内容安全能力持续加固。金融领域中,模型生成的文本、代码、决策逻辑链等输出直接关联信贷审批、风险定价等核心业务,当前金融机构需围绕:内生安全设计、动态对抗演练、长推理链的可信性验证等方面进行加固,以降低业务决策偏差风险。应用安全能力需要深化。机构需要建立与金融业务强绑定的模型安全管理细则,包括:风控领域(利率/汇率/业务合规)、展业场景(保险/理财/交易反欺诈等)、会计审计等关键环节,实施根据业务场景流程设计的模型调用鉴权机制。行业标准深度适配仍需加强。除了满足大模型通用安全规范之外,还要深度适配金融行业数据不出域、高实时性以及金融合规的行业三大刚性要求,目前大模型与金融核心业务融合深度不足,尤其是对于风控类场景,需要提升模型与金融行业的深度适配能力。2.6 模型应用效果难以评估,金融机构对大模型的长期价值尚存顾虑大模型应用效果难以量化。大模型落地具有长期性与滞后性,金融机构对大模型的投入多为战略性布局,前期需要承担高成本,但直接回报(如新业务带来的营收增长)与间接回报(如运营效率提升、风险降低、用户体验优化)多体现在业务侧,而业务的多样性导致大模型的应用边界较为模糊,因此难以形成统一的测算模型。长期价值的不确定性加剧了金融机构的顾虑。大模型技术更新迭代快、监管环境变化频繁,使得大模型的长期投入面临被替代或被约束的风险。对于资本敏感、风险偏好较低的金融机构而言,如果短期回报不显著,长期收益又缺乏确定性,便容易产生观望甚至保守的投资态度。2.7 业-技融合的敏捷组织尚未成熟,复合型人才稀缺金融机构在推进大模型技术落地的过程中,除了面对技术攻坚与业务效果显性化等挑战之外,同时面临着深刻的组织与人才瓶颈。一方面,业务团队与技术团队之间仍存在着难以弥合的“理解壁垒”,业务部门作为最终使用方,更关注技术能否直接解决具体业务痛点,比如提升信贷审批效率或优化客户服务体验,他们通常以投资回报率和合规要求作为核心评估标准,期望获得立竿见影的科技赋能效果。而科技部门则更注重技术实现的可行性和系统兼容性,需要权衡算力成本、数据质量以及与传统系统的整合难度等。这种思维方式的差异导致双方在需求优先级上难以达成一致,业务部门可能低估数据治理、知识建设等基础工作的复杂性,科技部门则容易陷入技术完美主义的陷阱。更复杂的是,虽然业务部门掌握着验收决策权与评估权,但技术投入往往由科技预算承担,这种状况下,很容易出现“各说各话、各讲各事”的现象,而导致大模型场景用例的实际落地效果不如预期。此外,人才短缺的问题更为突出,既深谙金融业务逻辑又精通人工智能技术的复合型人才在行业内凤毛麟角,且现有的培养体系难以在短时间内填补这一人才缺口,导致金融机构在大模型应用上陷入“有技术无场景”或“有场景无技术”的两难境地。组织架构的固化与人才储备的不足,共同构成了制约金融机构智能化转型的隐性壁垒。从技术到场景金融行业AI原生应用的重构与破局之路第三章3.1 金融领域呈现出通用场景向专精场景的演进趋势金融行业大模型的业务场景落地已成为行业智能化转型的关键里程碑。在2023-2024年试点期,大模型多聚焦于单点场景技术验证,尚未形成规模化业务价值突破;伴随技术迭代与场景深化,当前大模型通过整合全域金融数据、深度挖掘细分场景需求,已完成从技术验证向深度金融属性业务渗透的质变,正式开启深度赋能金融核心领域的新阶段。根据金融行业大模型的技术复杂度(纵轴)与时间线(横轴),IDC将金融行业大模型的应用场景分为通用场景与专精场景。通用场景指的是技术门槛相对较低且具备跨行业复制性强的场景,涵盖智能写作、智能客服、智能办公和智能营销;专精场景是指需深度适配金融业务逻辑的场景,包括智能信评、智能审计、智能舆情分析、智能交易撮合、信贷自动化、个性化理财、智能投研、智能投顾等。随着技术成熟度的不断提升,大模型应用发展的重心正加速由通用基础领域向高价值业务领域的迁移。通用场景与专精场景对模型的能力要求、落地重点等方面的差异较大。通用场景的定位更加偏重非决策与辅助类业务,对金融知识的专业要求与模型精调需求相对较低,落地重点是工具链轻量化部署,适用于金融通用大模型;专精场景的定位更加偏重决策与高价值类业务,需要深度理解金融业务逻辑,落地重点是可解释性提升与智能体调用,适用于金融专精模型。图3 通用场景向专精场景演进高低高通用场景专精场景智能舆情分析智能审计高频量化交易实时反欺诈智能交易撮合智能尽调智能信评智能决策辅助智能合规信贷自动化智能投顾智能投研个性化理财智能营销智能办公智能写作智能客服技术贡献度表5 通用类场景与专精类场景对比非决策、辅助型:信息整理、客服、营销文案、舆情汇总等依赖推理,参数规模较大,优先降低幻觉而非完全消除对金融专业知识要求相对较低轻量化工具链(对接咨询、舆情、客服日志等)通用大模型决策型、高价值:授信定价、量化交易、合规风控等深度精调与再训练,可解释性要求高,量化、剪枝后部署在本地实现低延时推理需要对金融知识进行工程化管理并通过RAG持续优化业务场景数据应用,模型可解释性与智能体架构与业务深度匹配金融专精模型通用类场景比较维度业务定位模型推荐落地重点模型要求知识调用专精类场景根据IDC观察,金融行业大模型(token)调用量较大的场景主要集中对话交互类和内部运营类场景。例如,智能客服(如信用卡业务咨询、理财产品咨询)、智能投研、以及内部运营助手(如内部知识库问答、政策制度查询、智能陪练助手)等场景,这类场景对数据隐私及安全合规要求较低,且具有高频交互、数据密集型等特点。.AI原生能力重构体系化适配金融行业智能需求随着模型落地应用场景从通用型向专精型演进,此过程中不同类型、体量的金融机构对模型的差异化需求显著,因此需要针对性匹配建设思路。差异性主要聚焦于算力、数据、模型开发、智能体开发与应用以及场景适配五个层面,如国有大行在算力层面更加偏重自主可控,需要自建多芯算力集群;区域性银行更加关注算力成本,因此多采用算力租赁的方式;证券/基金公司更加关注投研模型与产业图谱动态更新;保险公司需要应对理赔高峰并实现保障条款生成零幻觉,提升核保效率等。满足各类金融机构的大模型落地需求的关键是对AI能力进行原生重构。非AI原生仅能实现业务局部优化,但具备AI原生应用的金融机构完成的是从算力、数据、模型到业务层面系统进化。基于各类金融机构的挑战,以及各类金融机构对大模型的差异化需求分析,我们提出了构建AI原生应用策略(AI native strategy)。AI原生应用是指围绕基础设施、数据体系、技术架构、模型应用与业务场景等环节,都以AI为核心,让每个环节架构在AI的价值发挥之上。只有当金融行业的算力、数据、模型与业务目标均围绕AI做原生级重构时,才能系统地解决诸如异构算力调度难度大、模型可解释性不佳、工程化难题难以解决、安全合规要求难以满足、投入产出策略不清晰、人才短缺等挑战。AI原生应用包括AI原生的基础设施、AI原生的数据平台、AI原生的模型平台、AI原生的智能体平台以及AI原生的金融场景适配五个层级。AI原生的计算基础设施AI原生算力基础设施的核心逻辑是“以AI工作负载为中心”:通过动态适配实现“算力与业务同频”,需搭建兼容多芯片(英伟达、国产芯片)、多AI框架(如TensorFlow、PyTorch、飞桨(PaddlePaddle)等),多参数场景(十亿到万亿)等异构算力管理平台,提升算力效率。针对百亿及以下模型,需单卡、单机实现训推一体,针对干亿参数模型的高算力需求,需采用PD/EP(数据并行 专家并行)分离的分布式部署方案通过将“数据拆分”与“专家层分工”解耦,成倍数提升算力利用效率,彻底解决“集中式部署成本高昂”的痛点。构建算力共享机制,图4 AI原生应用架构图金融场景适配Gen AI(含智能体)开发应用平台模型开发平台数据平台异构计算基础设施专业场景匹配专用模型场景落地难题攻克智能体开发模型精调模型自主可控大模型内容安全围栏金融数据算力云与一体机异构芯片高速网络存储企业级数据飞轮数据闭环多模型协同大模型内生安全审核安全测评工具链场景适配通用场景匹配泛化模型衍生品定价信贷决策实时反欺诈金融产品智能推荐金融报告解读金融文本写作智能客服模型幻觉控制决策可解释性实时推理稳定性伦理风险管控知识蒸馏强化学习场景映射低代码平台组件添加金融知识库金融专业词库MCPPrompt监控看板SFT监督式微调RLHF知识增强内容安全生成基座模型垂类模型场景模型开源基模模型算法层代码模型加密传输容器化隔离语料安全清洗合规校验数据源头管控实时风险检测意图识别审核分类拦截风险代答拦截敏感词过滤伦理护栏实时干预高质量精标数据财报研报论文期刊专业题库专业书籍其他金融数据多模态数据治理数据湖仓同步跨模态关联分析数据采集智能标注模型训练效果反馈公有云Stack专有云多芯适配弹性架构混合部署百舸一体机DeepSeek一体机昆仑芯昇腾海光DCURDMAInfiniBand缓存RapidFS对象存储BOS业务单元创新全员共创混合模型矩阵知识增强多元融合算力释放算力性能金融语料库一站式模型开发体系技术普惠提升业务价值让金融机构内部不同部门(如AI应用开发部、大模型训练团队、模型统一管理部门)及分支机构集约复用算力资源,降低小规模业务场景的算力投入成本,实现“基础设施普惠化”例如分支行的“本地化客户服务模型推理”无需单独采购算力,通过总行算力池共享即可满足需求;白天推理、晚上训练的潮汐算力弹性混部架构实现算力的分时复用。AI原生的数据平台Al原生数据平台是金融机构基于AI知识需求重构的数据底座,针对非结构化数据沉睡、数据链路断点、高质量数据供给不足等痛点,通过多模态识别与跨模态关联激活零散非结构化数据价值,依托RAG技术 高质量向量知识库打通“行业外部数据(宏观政策/行业案例) 机构内部客户数据(信贷/行为/交易)”链路,实现“数据-知识”转化以提升模型专业度,同时统一传统数据体系与大模型数据体系,沉淀可复用资产,最终推动机构从“数据驱动”升级为“知识驱动”,助力打造“数据越用越准、价值指数增长”的数据飞轮,成为释放大模型价值的核心数据燃料库与知识发动机。AI原生的模型开发平台AI原生的模型开发平台能够贯穿模型训练-微调-部署-安全-运维等环节,实现多个模型协同。AI原生的模型开发平台为金融机构提供完整的工具链与各类微调版本以及原生的上下文支持能力,金融机构可以根据业务需要构建专精 通用模型矩阵,提升模型复用能力,降低模型部署门槛。AI原生的智能体开发平台AI原生的智能体应用开发平台能够让金融机构快速构建出会思考、会执行、会进化的智能体,大幅降低对技术人员的依赖,这种技术普惠大幅降低了使用门槛。让不会写代码的业务人员能快速创建智能体应用。能够基于金融机构复杂的业务链条提供针对性的编排与搭建方案,也能为金融机构提供丰富的智能体模板,如为保险公司提供核保智能体提升智能核保与理赔效率,为证券/基金公司提供投研助手智能体提升分析师工作效率。AI原生的金融场景适配Al原生的金融场景包括通用与专精两类场景,不同场景适配不同模型,从而精准满足金融业务要求。如通用场景可以满足面向员工从提效到决策的全场景适配需求;专精场景适用于对准确率、时效性、专业度要求高的核心业务以及面向客户的专业领域。总之,金融机构的AI原生应用需要围绕异构算力管理调度、数据飞轮、通用与专精模型协同、智能体普惠以及金融场景深度适配五个层面展开,才能让金融机构能够真正享受大模型带来的指数级价值。3.3 七大核心要素助力金融机构打造AI原生应用对于金融客户而言,除了要关注AI原生应用的策略之外,在落地时还要掌握算力、数据、模型、智能体、安全合规、场景适配与组织人才七个核心要素,每个核心要素包括若干与之相关的二级能力指标。图5 AI原生应用构建的落地七要素!#$%&!#$%&()*! ,*-./0)*!1234567)*!89:;7)*!?;7)*!ABCD!EFBCD!GHIJKL9M!NHOPQR9M!ST2UVWX9M! ,YZ9M!9M! ,_9M!12*-./0aZ9M!12bc5defg9M!hi12jk9M!89:349M!89:;79M!89:lm9M!#$%&()* ,-!#$%&()* !#$%,-./0123425!#$g01!#$9:;01?CDEFGHIJKLMN!$Mno5p$q!rstu5vwu!$Mxyz3.3.1 构建AI原生的算力选型指标与算力共享机制构建AI原生的算力选型指标,包括:算力密度、合理存算比、混合精度、国产化与稳定性。围绕金融业务场景对AI原生的算力需求(如智能投研、实时反欺诈要求毫秒级响应)提升算力密度,降低模型推理延迟;根据金融多模态数据(如交易流水、保单影像、投研报告文本)的处理需求,确定合理的存算比;用混合精度兼顾金融业务对模型精度(如信贷审批需要较高精度识别风险点)与算力效率(如对非关键图像可以采用较低精度,提升算力效率)的要求;通过统一的异构算力调度平台,实现对多类型算力资源的集中调度与智能分配,并通过分时复用、负载均衡和任务拆分等机制,保证业务高连续性与高稳定性。金融机构业务(如实时风控、智能投顾、交易撮合等)对延迟极为敏感,需依托AI原生的异构智算平台实现毫秒级响应。在能耗管理方面,算力集群在非业务高峰期(如夜间、休市)往往出现GPU闲置率过高的问题。可通过GPU与XPU的混合调度、分时复用机制,以及云-边-端的弹性协同计算,实现算力资源在不同业务场景下的灵活调配,最大化资源利用率并优化功耗比,降低百万token计算成本,达到绿色算力的目标。机构需要以高效稳定、多芯适配、轻量灵活为企业管理者、运维人员、开发人员等多角色提供丰富的资源调度策略、全方位的故障感知与容错机制、极致的存训推一体化加速、便捷的多芯适配及业务迁移等硬核产品能力,完整覆盖算力应用的全生命周期。针对大规模智算场景,可同时提供容器、裸金属等多种基础设施资源类型,满足企业自建、服务托管等多类建设场景,帮助企业快速、平稳的向新一代智能化、集约化基础设施转型。3.3.2 基于AI原生的数据平台打造从数据驱动到知识驱动的数据飞轮构建高质量数据标准,挖掘高质量数据针对多源异构、高敏复杂的数据特性,金融行业需要构建一套统一、高质量的数据标准体系,建立覆盖全生命周期的治理框架。要实现数据价值最大化,需要建立科学的数据标注体系,并在行业层面制定面向大模型的高质量数据治理标准。针对结构化交易数据,可定义字段级别的标签与数据质量标准;针对非结构化文本与多媒体内容,则需引入语义标注、情感分析等维度。参考某国有银行实践,其已在总分行、数据运营商、支付清算机构之间建立跨机构、多维度的数据评价体系,实现外部与内部数据的分工利用:外部数据在合规前提下用于训练模型,扩展业务洞察的广度;内部数据则更聚焦于日常运营,直接支撑精准营销、信贷风控等核心业务。面向金融场景构建数据分级分类管理体系金融机构需要对数据进行敏感度分级管理,例如将身份证号、账户交易流水等定义为高敏感数据,实施更严格的加密与访问控制;将地域、年龄等定义为低敏感数据,允许在更宽松的安全策略下共享与分析。着力整合碎片化的多模态数据,如将分散的贷款记录PDF、投资分析文档、票据影像等归类整理,并结合具体业务场景进行匹配应用。强化知识工程能力通过知识工程,金融机构可将数据转化为可计算、可推理、可共享的知识资产。金融机构应利用知识图谱技术构建业务映射网络,挖掘实体之间的复杂关系,例如客户之间的担保关系、账户之间的资金流动路径、交易行为与地理位置的关联等。在此基础上,构建AI知识库,沉淀包括风险识别模型、合规规则、营销策略等在内的高价值知识模块,并将这些模块封装为可复用组件,形成知识工程的最佳实践。打造数据飞轮,沉淀数据资产。金融机构需要通过与模型交互沉淀结构化与非结构化反馈数据,结合外部合规数据源与扩充数据量;通过特征完成数据脱敏并将数据转换为可用的训练样本或知识,针对高频业务迭代模型,再将优化后的大模型反哺业务,提升模型的行业适配性与可解释性,形成“数据知识模型业务”循环增强的飞轮效应。3.3.3 基于AI原生的模型管理平台实现模型与场景的深度适配基于业务场景适配模型。金融机构需要根据业务精准选择专精模型(如风控模型、量化投研模型、智能理赔模型)与通用模型(智能客服、智能营销等),并实现从模型需求定义、开发构建、定向精调,到合规测试(含风险评估、数据合规校验)、安全部署,再到上线后性能监控与迭代优化的模型全生命周期管理。根据自身资源与技术能力选择模型路线。金融机构在模型选择与路线规划时,应对自身的技术能力、数据资源、预算投入和合规要求进行系统评估,重点关注技术透明度、可定制化程度、运维难度、安全合规水平及模型迭代能力等指标。如国有大行需要在复杂决策场景中适配千亿级闭源与专精模型,走闭源与专精路线,降低模型幻觉;股份制银行需要对复杂场景匹配专精模型,对通用场景匹配开源通用模型,走混合路线平衡资源利用率;区域性银行直接使用7B-B开源与通用模型或租用MaaS服务;保险公司为核保核赔专业场景匹配专精模型,围绕核保规则与用户归档等通用场景匹配通用模型,走混合路线;证券/基金公司需要关注RAG,通过专精模型先检索向量库再生成研究内容,满足自动拆解财报、生成投资摘要业务需求。通过多个模型协同满足业务稳定性与连续性要求。适配金融业务高峰场景(如理财发售、信贷申请峰值),模型需要具备高并发处理能力,保障核心业务(如实时风控、交易决策)的低延迟响应(通常要求毫秒级),避免影响业务运转。同时支持模型故障自动切换(如主模型异常时快速启用备用模型),保障业务连续性。3.3.4 基于AI原生的智能体平台打造智能体开发、应用与运营的赋能闭环基于业务流程与勾稽关系编排开发智能体。金融机构需先联合业务部门(如信贷部、投研部、客服中心)开展需求拆解,对内面向员工,对外面向客户,业务专家围绕内外部业务逻辑提取关键流程,在确保数据合规的前提下,算法工程师匹配模型并编排智能体工作流,完成业务流到智能体的精准落地。智能体应用要嵌入业务系统,提升易用性。金融机构需要将开发好的智能体嵌入业务系统,面向客户的智能客服智能体,需嵌入手机银行APP,当客户咨询业务问题时,智能体能够主动调取客户征信数据,再给出反馈;面向员工的智能体需要嵌入关键工作系统,如信贷审批人员使用的“信贷管理系统”中即可调用信贷审批智能体,无需额外打开智能体平台,避免多系统切换。提升业务侧的智能体运营能力。金融机构需要实时跟踪智能体流量波动(如高峰时段服务并发量)、关键节点报错(如信贷审核流程中断点)与客户反馈(含满意度评分、需求未满足场景记录)等数据,通过结构化表单与定期复盘,将零散信息转化为可落地的技术优化需求,为智能体迭代提供数据与业务依据。3.3.5 打造从硬件基础到场景应用的全栈安全能力,筑牢金融安全防线基于AI原生的异构计算基础设施巩固安全防线。异构算力基础设施,可以将芯片池化,让金融机构实现万卡级弹性调度与训推分时复用,有效突破算力瓶颈;通过RDMA网络与联邦学习机制构建可信网络环境,满足监管与审计要求;通过框架准确表示算子执行所在芯片位置,并对不同型号芯片的算力进行细化分配,主动感知超时、优先级与数据长度等条件,实现异构芯片调度,降低因芯片调度不当引发的安全风险;通过缓存系统与对象存储(冷数据自动下沉)分离实现智能分层,将冷数据自动下沉到对象存储,减少数据被攻击的风险,保障数据在存储和调用过程中的安全性。基于AI原生的数据平台保障全生命周期的数据安全。在数据加密环节,尤其是数据存储与传输过程中,借助SSL/TLS协议对数据加密,可以防止数据在传输时被窃取或篡改;在存储时运用对称或非对称加密算法,让金融机构的客户信息、交易数据等得到安全存储;在数据访问控制过程中,可以采用多因素认证方式,如结合密码、短信验证码、指纹识别等,强化身份验证的安全性,避免未经授权的访问,降低数据泄露风险。通过AI原生的模型开发平台可实现模型安全调用。AI原生的模型开发平台具备多模型协同能力,不仅可以满足算法代码加密传输与容器化隔离要求,还能够将基座模型、垂类模型与专精模型匹配至各类金融业务场景中。此外,AI原生的模型开发平台可以在敏感词过滤、伦理护栏与实时干预方面构建安全评测工具链,建造金融应用与模型之间的安全隔离带,保障安全可信。基于AI原生的智能体开发平台实现应用安全。智能体应用在与外部协议、工具、环境交互时存在各类隐患,如通过提示词注入攻击,攻击者可修改输入提示词或注入隐藏指令,诱导大模型偏离用户请求,输出恶意结果,进而引发数据泄露、错误操作等问题。Al原生的智能体开发平台内置了金融业务规则库,实现开发工具代码合规性自动校验,能够基于金融业务流程预设操作白名单,绑定工具调用权限,从而为金融机构提供可审计、可追溯的应用安全环境。AI原生的金融场景与模型深度适配保障业务安全。金融场景复杂多变,安全威胁可能随时出现,模型对金融业务的原生适配可以持续分析业务交易数据、用户行为模式等信息。一旦发现异常,模型能迅速启动相应的防护措施,如阻断交易、发出警报等,可以让金融机构更好地适应复杂多变的金融环境,保障业务场景安全。3.3.6 以ROI为核心构建模型价值的评估体系以ROI为核心,构建模型落地效果评估体系。金融机构在落地大模型过程中,需要明确业务需求、识别关键流程、评估现有技术、分析模型适配、评估潜在收益,并以此构建模型效果评估体系,包括提效、增益、使用频率(MAU、DAU)等维度。其中,ROI作为衡量大模型应用投入与价值创造效果的关键指标,应成为各类金融机构评估模型效果的关键抓手。成本评估:硬件成本(服务器、存储设备等硬件的采购和维护成本)、软件成本(大模型软件许可与云服务的费用)、人员成本(开发人员与培训费用)。收益评估:营收增长(通过大模型技术创造的新业务收入)、客户体验(满意度与留存率提升)、员工体验(参与度提升)、生产效率(流程优化与运营效率提升)、创新能力(金融产品开发能力提升)、可持续发展(ESG指标与绿色金融)、上市时间(产品推向市场进程加速)、安全信任(数据安全与客户信任加强)、业务韧性(应对市场波动与不确定性能力提升)。通过场景筛选与指标跟踪进行模型评估。金融机构要以用户为中心,围绕ROI的成本与收益类指标来划分场景落地优先级,并进行动态调整;通过基线对比(大模型场景落地前后对指标进行对比),持续检测并长期跟踪大模型ROI相关指标,确保资源投入能够产生最大的经济效益和业务价值。图6 IDC人工智能九大商业价值收益来源:IDC,间接价值直接价值业务韧性Business Resilience安全与信任Security and Trust上市时间Time to Market可持续发展Sustainability创新能力Innovation生产力与效率Productivity and Efficiency员工体验Employee Experience客户体验Customer Experience营收增长Revenue Generation人工智能的九大商业价值收益THE AI BUSINESSVALUE BENEFIT3.3.7 建立跨部门协同组织,引入技术合作伙伴,打造复合型人才队伍对内应当打破传统部门墙,建立以业务价值为导向的跨职能协作单元或虚拟团队,由业务骨干牵头整合技术、数据、风控等资源,形成需求洞察、模型迭代与风险管控的闭环。这种组织创新不仅要求技术人员深入业务前线理解监管逻辑与客户痛点,更需要业务人员具备基础的技术思维,共同将抽象的金融场景转化为可落地的技术方案,例如,可先以设置业务产品经理/技术业务经理等虚拟岗位角色的形式,推动内部开展业技融合。对外合作则需要建立严格的技术伙伴筛选机制,在伙伴具备领先的全栈大模型技术能力的基础上,重点考察伙伴对金融业务复杂性的专业理解程度,能够综合考虑技术成熟度与业务紧急度的匹配,为金融机构设计既契合整体数字化经营战略、又兼具领先创新方向的大模型应用场景落地方案。同时应当构建动态评估体系,确保技术方案始终与业务战略保持同步,避免陷入“为技术而技术”的误区。如上文所说,人才队伍建设是破局的关键,金融机构可构建“引进 培养”的双轮驱动模式。在人才引进环节,明确复合型人才的画像标准,优先选拔既熟悉金融业务全生命周期管理又具备算法工程化能力的跨界人才。在人才培养方面,应当设计场景化的成长路径,通过沙盘演练、轮岗实践等方式,帮助员工在真实业务环境中掌握大模型应用价值与实现可能,逐步缩小技术与业务的能力鸿沟。这种人才战略的落地,需要管理层给予足够的资源倾斜和考核激励,才能打破现有组织惯性,真正释放大模型的赋能价值。领先实践金融机构大模型开发与应用案例第四章4.1 某国有银行AI PaaS平台让零售业务迈入“秒级”时代项目背景:零售银行全域升级作为拥有庞大营运分支机构数量的零售大行,该国有银行近4万家网点像毛细血管般深入城乡,为6.5亿个人客户、18亿账户提供服务。依托“自营 代理”的独特模式,该行把“三农”、城镇居民与中小企业视为核心客群,全力助推中国经济转型。如今,该国有银行正加速实现从“最大”走向“最强”的战略跃迁:通过构建全行级智能AI PaaS平台“人工智能大脑”,实现所有模型集中调度与统一纳管,驱动智算一体架构快速落地,打通数据孤岛、整合渠道资源、协同批零业务、优化全域运营,最终建成开放互联的数字生态银行。落地实施:AI原生应用遍地开花通过携手百度智能云,该国有银行以“AI PaaS”为技术底座,迭代建设,在国内大型商业银行中率先完成首个“全行级统一机器学习平台”全面落地。该平台聚集“地基”夯实:引入百度百舸算力集群与千帆大模型引擎,打通多个总行与分行的数据壁垒,形成从数据采集、特征工程、模型训练、版本管理到上线运维的“端到端”闭环。该行持续进行平台升级、拓展场景建设,借助生成式大模型能力,孵化出测试用例分类、货币交易机器人、金融领域对话生成、金融领域辅助文档分析、金融领域投诉分析等多款AI原生应用。在项目实施上,统一平台多期迭代,逐渐向功能更完善、场景更独立、流程更智能、生态更开放的方向发展,构建了不同业务场景独立应用、打通流程智能化、赋能业务数字化、延展智能业务生态的“金融全脑”平台。应用效果:实现了从模型到业务的全面提升智能风控:大幅降低人工依赖零售信贷从“5分钟”迈入“10秒”时代:自动化审批秒级完成,模型可按天迭代,信用卡、个贷等14亿账户的风险分池建模,由43天缩短至10小时即可上线。平台还为成本报账、人力、法务等系统提供预测服务,全年400万笔报账影像智能识别,大幅减轻财务审核压力。数据智能:从建模到合规的数据体系优化平台对接全行六大主题数据集市,一键完成数据拉取、清洗、特征衍生和统一建模。30余家省级分行已基于该底座上线营销获客与产品推荐;金融市场部也借此把市场数据与交易流水融合建模,实现实时评估交易成本、识别潜在风险。模型开发:打造智能化战略中枢内置的高性能数据引擎与建模引擎,把亿级信用卡样本的清洗和分析从“按月/周”缩短到“按小时”;AI集群现已承载18个核心业务系统、3大主管部门、14个支撑部门和30余家分行的模型训练与推理,成为该行智能化战略落地的“中央处理器”。IDC案例点评该国有银行将AI PaaS与业务战略同频规划,而非作为单点项目进行推进,通过统一数据治理与模型治理框架,实现“边缘场景中心大脑”的双向赋能。同时,该行借助百度百舸 千帆底座,将GPU、NPU异构算力资源池化,大幅降低了训练任务周期,将模型上线周期从月缩短至天,并快速打通了数据集市与多个总分行核心业务系统,解决了数据庞杂、业务割裂的问题。IDC认为,模型即服务是未来银行快速落地AI大模型的关键。该股份制银行不仅凭借AI PaaS完成了数据拉齐,而且持续深化大模型在复杂产品(财富、资管、托管)中的垂直微调,构建了行业级模型即服务的基准,并率先在乡村振兴、绿色信贷等监管重点场景中落地服务内容,持续巩固了该行“普惠 科技”双标杆地位。该行不仅代表了国有银行AI规模化落地的先进水平,也为全球零售金融的模型即服务提供了可复用、可扩展、可度量的全新参考。4.2 重庆农商行依托百度智能云企业级金融AI中台,打造代码规范的最佳实践项目背景:加速智能化转型,破解AI建设难题作为全国农商行体系的领军者,重庆农商行(以下简称“该行”)积极响应金融行业智能化转型趋势、持续深化人工智能技术应用。早在2018年,该行便已构建了涵盖人脸识别、语音合成、AI数字人等技术能力的智能服务体系,广泛应用于智能外呼、手机银行等业务领域。然而,面对AI技术迭代与业务需求多元化挑战,原有分散式AI建设模式的弊端日益凸显,主要表现为:算力孤岛、模型复用率低、开发效率不足。为解决这些痛点,该行亟需构建一套统一的智能化基础设施,以支撑全行的数字化转型。落地实施:搭建金融级AI中台,赋能智能化开发金融级AI中台:全生命周期管理平台该行依托百度智能云企业级金融AI中台解决方案,搭建了大规模智能服务基础设施,形成了一套完整的智能模型全生命周期管理平台和服务配置体系。该平台通过私有化部署,有效整合了异构算力资源池,支持主流AI框架和各类模型(包括LLM),面向行内提供从数据处理、模型开发、模型训练、模型评估到模型推理部署等AI开发全流程支持,为前台构建了敏捷的、业务导向的智能服务体系。核心功能包括:算力资源统一管理:构建异构算力资源池,实现统一管理与弹性分配。模型训练一站式服务:提供模型/算法库的统一管理与复用,支持一站式开发、训练、评估和微调。高效推理与服务:通过标准化API/微服务接口,实现秒级弹性扩缩、多模型灰度发布等,显著提升在线推理能力。灵活服务编排:提供可视化应用编排能力,支持AI服务的高效组合与快速迭代。图7 某农商行AI中台AI应用基础管控模型广场模型应用代码助手知识库开发工具链基础模型算力管理权限管理安全审计数据管理Ernie*算力虚拟化算力池化AI芯片高速互联机器学习模型*深度学习模型*模型精调模型评估&优化模型管理推理服务部署Prompt工程推理服务监控告警对接行内预警平台及统一告警中心接入行内日志平台日志英伟达GPUNVLinkXHMI昇腾NPU(B)大模型知识库:新一代智能问答助手基于AI中台和端到端应用开发工具链,该行搭建了统一的知识体系与智能问答助手,为总分行提供创新的标准化、高性能、高精度的大模型知识问答应用级服务。在知识文档解析方面,集成了通用文字识别技术,对各类word、pdf文档进行解析与切片,生成知识片段。同时,结合RAG技术,优化了传统问答流程,实现了知识的自动化扩充与精准检索,大幅提升了问答准确率。代码助手:开创智能化开发新范式依托百度文心快码(Comate)产品,该行实现了全栈智能化开发。智能编码技术能够自动补全、实时检查、生成单元测试,甚至完成复杂的业务逻辑生成与验证。通过引入代码助手,该行建立了代码规范的最佳实践,显著提高了软件开发的效率、质量和可靠性,并降低了人工调试成本。应用效果:拓展业务边界,重塑金融科技竞争力通过AI中台与代码助手项目的实施,该行成功构建了“基础设施 场景应用”的双轮驱动模式,实现了模型复用率和开发效率的显著提升。这不仅为全行的数字化转型提供了可复制的方法论,更重塑了其在金融科技领域的竞争力。未来,该行将持续拓展AI应用生态,从代码助手、员工知识问答等场景,逐步扩展更多业务领域,持续迭代并升级AI产品,进一步释放技术潜力。IDC案例点评该农商行智能化转型成功的关键在于百度智能云的金融级AI中台赋能。AI中台整合了分散的AI算力与模型资源,实现了异构算力池化管理和模型全生命周期管理,在显著提升资源复用率与开发效率的同时引入代码助手,实现了全栈智能编程辅助,大幅降低了人工成本。此外,在模型落地应用过程中,通过私有化部署与模块化设计(算力层/训练层/推理层/MaaS层),支持从基础模型训练到复杂业务编排的灵活扩展,也为多场景AI应用深化与场景扩展预留了发展空间。IDC认为,技术资源整合能力、场景适配与安全合规体系建设,是该农商行顺利转型的成功因素。通过AI中台一体化解决方案解决了过往分散建设与AI碎片化的问题,通过RAG实现了金融知识的自动化萃取,通过AI开发工具链的统一管理,最终实现了端到端的工具链整合与场景落地。凭借百度全栈技术能力、金融场景深度适配及安全合规体系,该农商行实现从分散式AI到统一智能平台的升级,既验证了中台架构在金融复杂业务环境中的适配性,也为行业提供了可复用的“技术底座 场景应用”双轮驱动新范式。4.3 泰康保险集团股份有限公司AI综合解决方案大幅提升核保核赔自动化率项目背景:以ROI为出发点探究AI综合解决方案与业务场景深度适配泰康保险集团股份有限公司(以下简称泰康集团)以解决实际业务痛点为导向,弱化单一技术标签,构建“大小模型协同 AI工程支撑 场景深度绑定”的综合解决方案,在保险核保核赔、康养服务、中后台运营等场景实现降本增效,其“问题牵引型”落地路径与“ROI优先”的实施策略,为保险行业AI技术规模化应用提供了可借鉴的实践案例。落地实施:多模型 AI工程 深度共创实现了场景化穿透多模型矩阵打造AI工程泰康集团采用“通用大模型 专精小模型”组合策略。基础能力依托百度文心大模型进行保险领域适配(优化保险术语理解准确率大幅提升),同时针对细分场景开发专精模型,如核保场景的病历结构化模型(融合OCR与文本抽取技术)、理赔场景的反欺诈规则引擎,大幅提升了结果可靠性。大模型早期应用存在“重技术轻场景”的现状,通用模型在保险严肃场景中表现出准确率天花板低(如核保规则匹配准确率不足)、结果一致性不高等问题,泰康集团投入了80%的技术力量优化AI工程,建立了“模型一致性校验机制”,通过规则引擎与模型输出并行比对,降低大模型幻觉。与技术服务商深度共创,打造“AI产品经理牵引”的运营模式泰康集团与百度深度合作,共建保险行业首个全链路知识平台,集成搜索引擎、向量化检索、切片编辑等技术,支撑知识助手的精准响应;联合开发医疗影像解析、财务票据识别等专精模型,弥补内部技术短板。在组织层面,推行“AI产品经理牵引”模式,组建业务与科技交叉团队,通过弱矩阵管理推动跨部门协作,重点解决中间层阻力问题,确保AI工具在业务流程中落地。应用效果:打通了从效率提升到价值重塑的量化闭环在核保核赔业务场景下,数据处理周期明显缩短围绕保险核保核赔场景,引入大模型对病历进行结构化抽取,处理周期从4周缩短至1周,周期缩短三倍,效率提升3倍。同时,核保流程实现了大模型初步结论 小模型规则校验 人工复核三阶流程,大幅降低了人工成本。在康养服务场景下,档案生成效率大幅提升围绕康养服务场景,尤其在健康档案生成、照顾计划制定等业务流程中,实现了客户健康数据自动汇总(涵盖体检、诊疗、生活习惯等维度),档案生成效率大幅提升,并通过智能体推送个性化建议(包括慢病干预方案),档案无需人工复核,深度适配了康养场景对容错率的弹性需求。在中台运营场景下,知识助手覆盖多个业务领域在中台运营场景中,开发了智能交互工具,支持语音指令完成差旅报销、会议预订等操作,中台的27个知识助手覆盖了3000 内勤和数万保险代理人,实现快速条款查询与规则匹配,大幅减少了系统切入切出的成本。IDC案例点评泰康集团的AI实践展现了保险行业以业务为根本的思考逻辑,回归业务价值本身,通过AI综合解决方案替代大模型单一路径,避免技术投入与业务价值脱节,这种业务价值创造导向的思路与ROI策略,为业界提供了技术落地的可行性框架。IDC认为,泰康集团在AI工程领域的投入深刻影响了其业务的创新能力。泰康集团将80%的精力投入在技术难度最高的AI工程优化方面,通过模型交叉验证、知识工程支撑、流程自动化等手段,弥补了大模型在准确率和一致性上的短板,证明了“大模型工程化能力”是当前大模型落地的关键突破点。此外,金融机构与技术厂商深度共创将成为主流合作趋势。泰康集团与百度的共创模式解决了技术资源不足问题,而“AI产品经理牵引”的组织调整则突破了内部阻力,说明技术落地不仅是技术问题,更是生态与组织的系统性变革。未来,随着智能体技术的成熟与成本进一步降低,需求牵引与ROI优先的策略将成为金融行业大模型应用的主流。4.4 银河证券大模型拓宽证券业务边界项目背景银河证券是中国最大的国有证券公司之一。公司根植中国资本市场20余年,服务中国及“一带一路”沿线超1700万客户,客户托管资产超5万亿元,已发展成为国内分支机构最多、亚洲网络布局最广的投资银行之一。近年来,公司深耕机构业务,倾力打造“天弓”品牌,致力于为广大实体企业和金融机构提供专业化的服务。场外衍生品是服务机构的重要业务,可以为机构提供定制化的风险管理产品。目前各家券商都非常重视该业务的发展。对于场外交易场景来说,头部券商致力于帮助客户快速处置交易询报价指令,提高运营服务效率,使得在固定的交易时间内转化更多交易。落地实施场外衍生品业务是银河证券机构业务中非常重要的一环,在当前业务需求与日俱增的市场环境下,其逐渐成为众多头部券商竞争的主阵地。针对机构业务服务响应滞后、业务运营成本高等问题,银河证券和百度智能云通力合作,基于场外交易解决方案先进的金融行业应用大模型底座,构建了“百度智能云金融智能场外交易平台”。该平台能够通过将交易询报价业务全流程自动化,取代查询、手工回复、信息确认等人工操作,形成从意图识别、询报价回复和多轮会话到交易转化的闭环,帮助银河证券实现了场外衍生品业务运营智能化,有效提升对客服务效率的同时,显著优化机构客户的满意度。内置非标准化数据解析模型助力快速展业:智能场外交易发现平台大模型泛化能力优异,通过少量的样本训练就可以达到不错的模型效果,目前已支持香草、雪球等股票期权及债券交易的自动询报价服务。模型统一管控快速响应新业务:智能场外交易发现平台支持解析模型自助优化,可进行自主标注、训练、调优及模型效果监控,使模型可以快速响应新业务、新资产标的。实现智能体智能会话提升信息获取效率:利用大模型多轮会话能力,根据多轮交互的内容进行问答。通过对短时态记忆的建模,能够跨多轮对话上下文进行语义理解,精准捕捉用户的真实意图和需求状态,提升交互的自然流畅度。支持智能体智能调度,对系统内插件进行工作流调度执行。提供高度模块化的插件调度引擎,可根据如交易、托管外包等不同业务场景调用定制化的功能插件,确保系统的灵活性和稳定性,快速响应业务需求。应用效果该项目上线后,降本增效成果斐然,报价能力大大提高,客户体验大幅提升,交易量随之增长。2024年9.26行情爆发,机器人创造了单日下单新纪录。整个系统有力的支持了客户数量和合约数量的爆发式增长,同时保障了业务的风控合规满足监管各项要求。通过大模型的多轮对话能力,支持历史文本记忆功能,显著提升机器人在订单查询、交易等多轮对话场景中的记忆与理解能力,用户体验满意度提高20%,服务效率提升30%,知识库问答准确率从69%提升至98%。该项目也为整个行业积极贡献了成功经验。以该项目为主要研究内容的课题获得2022年中国证券业协会优秀重点课题,相关成果已经整理成论文发表在金融纵横、中国证券等专业期刊,并获得多项行业奖项。IDC案例点评作为服务机构客户、高净值客户的重要工具,证券公司的场外衍生品业务具有产品定制化强(合约期限、交割方式、结算价格)、专业性要求高(定价模型复杂、风险计量技术难度大)的特性。百度凭借领先的AI技术能力,为该证券公司搭建了智能场外交易发现平台,推动业务流程实现自动化与智能化。同时,深度适配优化多种模型到自研投顾平台,客户从询价到下单的转化率大幅提升,满足了投资者千人千面的财富管理需求。IDC认为,以大模型为核心的AI技术可以大幅拓宽证券业务边界,助力证券行业个性化展业。百度与该证券公司的合作,是通过大模型技术优化了场外业务流程,用智能体实现了各类业务模块调度。未来,大模型会快速适配诸如主题基金、资产证券化、行业舆情实时分析等业务需求,围绕OTC交易策略为用户提供更加个性化的投顾服务与投资组合方案。金融行业大模型落地建议:多方协同构建“战略-支撑-生态-监管”四位一体保障体系第五章金融行业大模型落地需要金融机构、模型厂商、产业生态方以及监管部门共同努力,明晰大模型对自身乃至全行业的战略意义,设计从模型选型到落地应用的战略顶层架构,勇于把握AI技术浪潮奔涌而来的机会,积极推动金融创新。5.1 金融机构:构建“战略精准-执行适配-风控闭环”的系统能力设计3-5年战略规划:制定金融行业大模型从选型到落地的顶层规划,涵盖算力建设、数据体系、模型适配、智能体应用、安全合规、ROI评估与组织人才支撑,量化技术与业务考核指标并建立全员共识。制定实施计划与路径:在战略规划阶段制定三到五年路线图,明确各个阶段的资源分配。国有大行以自主可控为核心,分阶段构建全栈能力;股份制银行平衡成本与效率,聚焦场景化落地;区域性银行复用开源模型,有效提升业务效率;保险机构聚焦核保核赔,强化多模态能力;证券/基金公司聚焦低时延与投研智能化场景的模型策略。战略与合规风险管理:通过季度复盘降低运营风险,在数据合规、审计合规与个人隐私保护等方面保障大模型应用安全。5.2 技术服务商:提供“算力效能-平台易用-模型工程化-场景赋能”的全栈支撑打造金融级算力效能平台,通过异构芯片调度管理、大小模型分布式调度,潮汐算力混合部署,跨机构资源共享,实现算力使用效率的总成本领先。建设应用(智能体)开发平台:一方面,构建依托低/零代码开发环境与组件化扩展能力的应用开发平台,降低技术门槛,加速场景化应用开发和创新。另一方面,通过建设模型管理平台,提供基于基础模型的模型精调、推理服务、模型优化、模型压缩、prompt工程等全流程的工具链,以有效满足复杂业务场景对模型能力的个性化需求提升大模型工程化能力:围绕算法研发、模型训练、行业垂直化等构建技术护城河,确保大模型具备稳定性、安全性与可控性,在知识工程、工具链管理、智能体运营、安全运维等关键环节提供技术支持。深度赋能垂类业务应用:联合金融机构拆解垂类业务痛点(如信贷审批效率低、反欺诈误判高、投研信息碎片化),构建符合监管合规要求的数据处理机制(如联邦学习、数据脱敏)、开发场景化工具(如智能风控决策系统、投研问答智能体)、强化模型可解释性与结果溯源能力,将模型能力转化为解决具体业务问题的方案。5.3 产业生态:共建“标准统一-产学研协同-产业链联动”的协同体系共建大模型标准:标准组织、国家智库、评测机构、行业自律组织等机构需要推出模型评测、金融数据、安全合规等标准,构建标准开发工具生态,深度建立行业共识并实现资源共享。深化产学研合作:高校、科研机构与金融机构共同推动技术创新与应用,打造先导性、开放性的交流平台,金融机构与高校建立金融行业大模型联合创新实验室,围绕模型幻觉抑制、小样本风控等难题进行前沿学术与技术攻关,缩短模型应用从实验室到商业化的进程。产业链深度协同:算力基础设施与云服务提供商需要提供充沛算力;数据服务商与模型厂商需要满足数据监管要求并构建“数据飞轮”;金融机构需要围绕大模型战略聚焦价值创造并设定ROI指标。通过模型平台化、服务产品化、安全合规化、应用嵌入化以及生态协同化的方式构建“标准先行-算力适配-数据打通-场景共创-监管护航”的产业链协同机制。5.4 规范引领:强化“政策引导-工具迭代-标准牵头”坚持“规范与创新并重”:出台鼓励政策引导产业基金投向算力适配、算法攻关等领域,同时防范潜在风险;深化监管工具应用:利用大模型提升违规识别、风险预警的穿透性与有效性,秉持包容审慎理念引导健康发展;牵头标准建设:组织制定大模型能力、数据、风控等标准体系,在数据采集规范、算法审计、模型风险评估等方面给出明确指导,协同推动合规落地。结语:金融行业大模型落地需“机构定战略、服务商给工具、生态聚合力、行业立规则”,多方协同将“技术能力”转化为“业务价值”,最终实现从“模型可用”到“产业好用”的规模化突破。关于百度智能云金融行业“双智能 双引擎”方案第六章!#!$%!#$%&()*) ,-./01)*23456,-78019:;!#$%!&()* ,-./0123456,23?23ABC!789:;978?78ABC9D78EFGH789IJK78LM;9NN78OPQRST?ULVUWXUWYDE?,FGHI?J?!#$%&()* ,-!./!0123456789*:,234!;6234!?ABC!DEFGHC!DIJK?LMNOPOQR?STUGVW;XYZ-IJ5_a#$bcdefg-hijkl2mn-hijkQR2mo-hijkpqrsC-hijktuvw百度智能云金融行业“双智能”“双引擎”方案随着全球数字化浪潮的加速演进,金融行业正站在一个由人工智能(AI)技术,特别是大语言模型(LLM)驱动的深刻变革的十字路口。传统的业务模式、服务渠道和运营效率面临前所未有的挑战与机遇。百度智能云在服务客户过程中沉淀的,从算力芯片应用架构,提出一种前瞻性的“双智能双引擎”架构体系。该体系以“智能数字员工”与“智能对客服务”为两大核心应用(双智能),并由“百度智能云千帆AI开发平台”与“百度百舸AI计算平台”两大核心技术基座(双引擎)提供动力,系统性地重塑银行、保险、证券、基金等金融机构的业务流程与价值创造方式,旨在为金融行业的智能化转型提供一套全面、可行、高效的战略蓝图。6.1“双智能”应用层重构金融服务新体验6.1.1 智能数字员工:打造金融机构的超级生产力智能数字员工是AI驱动的虚拟劳动力,它们深度融入金融机构的各个业务环节,承担起高复杂度、高知识密度的工作,成为人类专家的得力助手。前台数字员工数字理财经理:能够7x小时分析海量市场数据、宏观政策和研究报告,为客户生成个性化的资产配置建议,并辅助投资经理进行深度研究,极大提升投研决策的效率与覆盖面。数字保险代理人:能够自动挖掘和推送潜在客户,将场景挖掘效率提升500% 。同时,作为全能业务助理,它能自动回复高频问题,并协助完成复杂任务,业务助理助推效率提升90% 。内置10万 专业知识库,使代理人的知识储备提升95% ,并能生成个性化的营销内容,使营销手段更丰富。通过模拟实战环境,智能培训系统可将新代理人的培训周期缩短50% 。可根据客户画像提供精准建议,让代理人面客准备更充分。简化线上投保流程,使保单成交更简单。数字客户经理:主动洞察客户需求,进行全生命周期的客户关系管理,提供千人千面的产品营销和服务支持,深化银行与客户的连接。ZWYHZ_aKLCMNOPQNJRSTUNCMV(WXDEYZXDEJCDEC8C,FGHI_CabcQde!#$%&()*&( ,-./0123452bcdefghij6789klmno:;ijkijl789:;978ABC9D78LM;978EFGH78OPQRST?789IJK78?-ppqrst-ppurstZHZcdv923ABC23?双智能:从“降本增效”到“创新增长打通技术到业务价值的最后一公里中台数字员工数字投研顾问:高华证券与百度智能云从去年年初开始在证券投资的核心场景进行深度合作,投入力量共同研发了基于大模型的指数化股票投资系统,依托百度千帆大模型平台,借助提示工程、思维链设计,去模仿专业投资者的思考逻辑,根据公开信息形成指数组合决策,属于我国业内首创。双方合作研发的最新研究成果华证高度大模型新质生产力指数。这是一个科技成长类指数,与红利类的稳健50恰好形成互补。新指数通过大语言模型技术,将上市公司在生产、销售、研发、投资等维度上的公开信息与权威政策文件语料进行匹配与分析,筛选出深入践行新质生产力发展理念并且成长性强的上市公司用来构建投资组合。截至7月底,大模型新质生产力指数近五年全收益指数年化收益达13.7%,不仅大幅超越同期中证科技100指数0.4%的年化收益,在回撤控制方面也展现优势最大回撤较中证科技100指数降低近18个百分点,再次展现出大语言模型在选股领域的巨大潜力数字风控模型算法工程师:在金融风控建模任务中,特征工程始终是影响模型性能的核心环节。传统做法多依赖人工经验与规则构建,虽能产生一定区分度的特征,但在大规模序列化、多维度的交易数据下,人工方法的效率与覆盖度明显不足。应用智能体方案,建模效率可由数月完成特征工程小时级别,极大提升提取的特征的IV效果,保证模型抓违约人群的能力。后台数字员工数字理赔专员:传统理赔核算方案耗费的人工成本和时间成本巨大,且核算过程难以按照指定形式向客户呈现,赔付结论可读性较差。通过数字理赔专员,大大节省了人力成本和时间成本,且案例与赔付规则的公式匹配、公式计算、案例赔付总结等过程可以按照指定形式清晰呈现给客户。数字开发工程师:可以理解业务需求,自动生成和优化代码,构建和迭代风险控制模型,将金融机构的模型开发与软件工程效率提升至新的量级。通过部署智能数字员工,金融机构不仅能实现显著的降本增效,更能将宝贵的人力资源从重复性工作中解放出来,专注于更具创造性和战略性的高端价值活动。6.1.2 智能对客服务:开创全场景智慧交互新时代智能对客服务旨在利用AI大模型,打造一个无缝、统一、高度智能化的客户交互中枢,重塑服务体验。新客服务:在获客环节,通过智能对话机器人提供全天候在线咨询,精准解答客户疑问,引导客户完成开户、申请等流程,提升转化率。新APP体验:将金融APP从一个功能菜单的集合,升级为一个“有思想”的智能金融助手。用户可以通过自然语言对话,直接办理业务、查询信息、获取投资建议,实现“所说即所得”的极致便捷体验。新交易场景:在交易过程中,嵌入智能风控提醒、市场机会解读和交易策略辅助,让每一次交易都伴随着专业的智能决策支持,提升客户的投资成功率和满意度。6.2“双引擎”技术基座驱动智能应用的强大动力如果说“双智能”是金融智能化的上层建筑,那么“双引擎”就是其坚实可靠的底层基础,确保AI应用能够被高效开发、稳定运行和持续迭代。双引擎:从可用走向好用一站式模型平台 AI算力云组合!#$%&()* ,!-./01$#()456* ,!#$%&()* ,!#$!%&!#$%&(&)*) ,-$%./01234556)*789:;?ABC!DEF&G%HI,-JKLMNKOP&QRSTU%VW)*) LM$%U=XYZ-./_abcRdefgAhijkklmkknopqrs,-tuvwxRyz|!#cd#_e.do!#,-!#$!#$%&()* ,-!./!0123456789*:,234!;6234!?AB%&()#$CD;EFGHIJ-KLMN5OPQ#$RSTUVW-XYZI2-XYZ_2-XYZabcde-XYZfgh* #$e!ijklme!iLMn?opqrsr_?tuvlw!#$%#()#* #,)6.2.1 百度智能云千帆AI开发平台一站式企业级大模型开发与服务中心千帆大模型平台为金融机构提供了从模型到应用的全链路工具与服务,是连接底层技术与上层业务的桥梁。百度智能云千帆ModelBuilder百度智能云千帆ModelBuilder能够基于国产化算力资源,实现从数据管理、模型开发、部署上线到在线测试的AI能力研发与应用全生命周期建设和管理。在数据管理方面,可以有效地处理大规模的数据,支持不同类型数据处理等功能;在模型开发方面,提供丰富的预置算法,包括市场领先的开源大模型、百度文心一言大模型、百度千帆中文增强大模型等,同时提供高效、稳定的开发环境,支持多模态、多类型任务、大模型等多种模型开发需求;在部署上线方面,支持多种部署方式,如在线部署、离线部署等,可以灵活地部署在不同的环境中;在线测试方面,可以支持实时在线的测试场景,可以快速地定位大模型调优方向,提高模型的质量和可靠性。千帆大模型平台的普及使得这些自动化训练技术更加普惠。通过提供易于使用的工具和接口,使得广大开发者和研究人员能够轻松地使用自动化训练技术,而不需要深入了解其背后的复杂原理。平台具备以下关键能力:多种微调方法:通过全量更新和LoRA自动调整参数,减少人工干预,提高训练效率。可视化界面和工具:提供易于使用的可视化界面和工具,方便用户管理和监控模型训练过程。丰富的预置算法:集成市场上领先的开源算法,预置丰富的小模型案例,快速部署服务体验效果,降低用户使用门槛。具备业内优势的开源大模型,Llama、Qwen、Deepseek等。大模型 小模型部署愈加复杂,体系化工具是应用实现利器随着大模型和小模型的广泛应用,大模型的复杂性要求更高的计算资源和更精细的调优,而小模型的多样性则带来了更灵活的应用场景和更高的部署需求。它们的部署过程变得日益复杂,需要高度的技术专业知识和有效的工具支持。在这种情况下,体系化工具成为实现顺利部署和应用的利器,为开发人员提供了关键的支持。首先,大模型和小模型的部署涉及到多个环节,包括模型转换、优化、推理引擎的选择等。针对这些复杂的任务,千帆大模型平台-燧原定制版模型部署工具提供了一套完整的解决方案,通过集成各种功能模块,简化了部署流程。这使得开发人员能够更加专注于模型设计和业务逻辑,而无需过多关注底层实施的技术细节。其次,部署工具在跨平台部署方面发挥了重要作用。由于不同硬件平台和操作系统的差异,将模型顺利部署到各种环境中变得复杂而具有挑战性。模型部署工具通过提供通用的部署接口和适配层,使得模型能够在多种环境中运行,从而提高了模型的可移植性和通用性。百度智能云千帆AppBuilder作为企业级AI原生应用开发平台,百度智能云千帆AppBuilder是实现业务价值闭环的关键。它是连接底层技术与上层业务的桥梁。其核心在于开创了大模型驱动应用开发的新范式,极大地降低了AI应用的开发门槛。零代码与代码态并行:为业务人员提供零代码的GUI交互界面,通过简单的“拖拉拽”和对话式配置,三步即可完成应用的创建与分享;同时,为专业开发者提供可编程的完整开发套件、工具链组件和工作流,支持更复杂、更定制化的应用开发。组件化与生态化:平台提供丰富的预置组件,并设有“组件广场”,鼓励开发者共享和调用,形成繁荣的应用生态。通过连接知识库、数据库、大模型和各类API,可以快速构建出功能强大的金融领域智能体,加速创新落地。核心优势:应用效果领先:内置企业级全链路检索增强与应用框架,能够实现效果分析、效果反馈和效果调优的实时闭环,确保问答准确率高达90%以上。组件工具丰富:预置超过60个AI能力组件,深度覆盖政务服务、营销办公、研发生产等主流业务场景,工具自动编排准确率超过90%。产品开放易用:通过零代码/低代码开发模式,并配套全栈课程,极大降低使用门槛,将开发效率提升30倍。支持多渠道分发与集成,快速满足各类业务线集成需求。全面支持国产化适配:支持私有化部署,彻底解决数据安全问题。全面支持信创,满足国产化诉求,适配主流国产芯片、操作系统及数据库。百度千帆慧金大模型针对行业应用中的专业需求,百度以金融行业为试点,正式推出千帆慧金金融大模型。该模型基于海量金融语料深度训练,构建金融专用合成数据管线,优化算法策略,并提供知识增强大模型和推理增强大模型两类模型,每类模型分别提供8B和70B两个版本,支持最长32K上下文输入,覆盖金融行业多数场景。在金融领域Benchmark评测中,千帆慧金金融大模型综合表现领先,百亿参数模型得分超过千亿参数的通用模型。在金融销售赋能场景中,相比通用模型,千帆慧金金融大模型能更完整地列出贷款材料清单、拆解工作流程,并明确风险管控要点,展现出深厚的行业知识与推理能力。AI搜索当前,企业在信息检索与决策支持中普遍面临着四大问题:自建大模型知识库存在信息更新滞后、时效性差的问题,难以覆盖热点事件和突发舆情,在面对复杂、专业的问题时,大模型可能因知识库限制而输出过时或错误的答案;!#$%&()* ,-./012QianfanHuijin-70B-32KQianfanHuijin-8B-32KQianfanHuijin-Reason-70B-32KQianfanHuijin-Reason-8B-32K!#$%&()* ,-.)/012* 34!#$%&!()%!* ,-DeepSeek R1Qwen3-235B-A22BQianfanHuijin-Reason-70B-32KFLAME-Cer!#sample$FinanceIQ!XUANYUAN$FinEva_Ant%&QianfanHuijin-70B-32K88.3086.1090.4086.1886.8287.6592.1090.7093.1088.8687.8790.38Qwen3-235B-A22BDeepSeek-V3-250324QianfanHuijin-70B-32KQianfanHuijin-Reason-70B-32KFLAME-Cer!#sample$FinanceIQ!XUANYUAN$FinCUGE%&89.1488.7193.1483.5182.6582.5383.0683.3386.5186.3685.5088.35FinEval89.7487.3191.23百度智能云千帆金融行业大模型:千帆慧金金融场景效果更好,模型应用灵活度更高企业内部知识边界局限,缺乏对产业上下游和全球趋势的外部信息补充;员工在处理外部信息过程中需通过外网终端进行人工搜索与筛选,加工成本高、效率低;搜索结果来源杂乱、质量不一,难以保障内容准确性和安全合规性。针对以上问题,百度搜索可以即时捕捉并提供最新数据,弥补时效性的不足;智能搜索生成结合大模型和基础搜索的能力,通过搜索拓展知识范围和大模型自身的总结推理能力,提升输出的准确率。百度搜索适用于企业内部有大模型,希望将搜索作为实时数据源,需要“原汁原味”素材自己来加工的场景;智能搜索生成适用于企业希望接口不是给链接、而是直接给答案的情形,并且答案要保证权威性和结构化。常见的应用场景如下:知识问答助手知识问答助手可作为企业内部知识库的有力补充,有效解决因知识治理混乱导致的检索不准确、知识更新不及时等问题。知识问答助手通过接入大模型与百度搜索能力,支持用户获取与问题相关的网页列表和原始内容,弥补自建大模型缺乏外部实时数据导致回答不准确的不足。依托百度搜索的分钟级更新能力,知识问答助手能够提供具备高度时效性的内容,有效提升问答系统的智能化和实用性。客户经理助手/客户助手企业可以在内部或者面客的系统或者APP中引入智能搜索功能,打造客户经理助手或客户助手。通过提供生活类信息查询、新闻浏览、热点事件追踪等功能,可以有效降低了员工与用户获取信息的成本,还能在持续使用中培养用户习惯,从而提升系统和APP的整体使用率和用户粘性。写作助手写作助手通过集成搜索功能,帮助用户在撰写内容时快速获取所需素材、案例、数据或背景信息,可以极大降低创作过程中的信息搜集成本与时间消耗。无论是用于新闻撰写、市场报告、营销文案还是社交媒体内容生成,写作助手都能够实时提供权威、丰富且多样的信息来源,激发创意灵感,支持结构搭建,满足多样化的创作需求。结合大模型能力,还可对搜索结果进行初步摘要与结构化提炼,为写作者提供更具参考价值的内容支持。6.2.2 百度百舸AI计算平台坚如磐石的AI算力底座算力与模型作为数字时代新的操作系统与基础设施,正朝着普惠化与平权化方向发展。面向AI原生应用的算力应用,要求算力管理具备动态化能力,以适应不断变化的业务场景需求,同时应对智能体与模型技术的持续演化。因此对于银行典型AI应用开发、大模型训练开发、AI模型统一管理部门,需要构建兼容能力强、具备技术领先的大模型训推加速云原生机制的异构算力管理平台,帮助金融机构在数智化转型中抢占先机,在确保安全合规的前提下,高效地开展业务创新和智能升级,解决算力高效分配问题,完成千亿模型PD分离动态部署,潮汐算力训推一体,在降低算力使用成本的同时,提供算力高效分配机制。算力管理平台随着通用大语言模型(LLM)和金融垂直大模型的迅猛发展,人工智能正在深刻重塑金融行业的业务模式、风控体系和客户服务体验。金融机构在拥抱大模型机遇的同时,逐步走向算力精细化管理的方向。大模型时代,AI原生的金融基础设施的建议!#$%&()* ,-./0!1203456#789:;%!&?A0#70B-CD!#$%&()EFGHIJK&LMNOPQ!PR!#$%&()*STUVWXYZ_LMabcZ! &,-.*def#7g#7hij!/0#$*klfmnopUqrst?Auvw%xyh&* #$z|zPR#%h&zz895!#$%!#$%&()#$XAuXAuAuAudC* 12e异构资源管理百度百舸AI计算平台通过高性能计算、存储、网络、集群管理、训推框架,为大模型场景下的各种任务提供高效的计算能力和数据处理能力,确保任务的高效执行。支持各类AI加速卡,如NVIDIA、昆仑、昇腾等高性能计算卡,提供强大的计算能力以满足大模型场景下各种训练、推理任务需求。并且支持零成本适配原生PyTorch/TF环境、Hugging Face架构大模型开箱即用、ONNX自动优化。支持CentOS、Ubuntu、麒麟等多种操作系统,通过多操作系统的兼容性,确保应用能够在不同环境中顺利运行。提供并行文件存储、对象存储等高性能存储解决方案,无论是大规模训练数据还是模型参数都能高效读取,确保数据处理的流畅性。同时支持容器网络、IB/ROCE等高性能网络技术,确保数据传输的低延迟和高带宽。训推一体AIAK支持多种主流大模型的训练加速,例如Llama、Qwen、Baichuan、Mixtral等系列模型的Postpretrain和SFT微调场景。通过优化算法和提升计算效率,AIAK能够显著提升训练吞吐量和多卡训练加速比,减少训练时间。可提供推理加速镜像,支持Llama、Qwen、Baichuan等系列模型的推理加速。通过并行优化、显存优化和算子优化,AIAK能够显著提升推理吞吐量,降低推理延迟,提高模型的实时性。拥有模型权重格式转换和并行策略切分工具:AIAK支持模型权重从Hugging Face到Megatron框架的相互转换。此外,还支持Megatron框架下模型权重按照不同的DP(数据并行)、TP(张量并行)、PP(流水线并行)并行策略进行切分,方便用户根据硬件配置和任务需求进行灵活调整。同时支持并行策略自动搜索工具,能够根据用户的硬件环境和模型特性,自动搜索最优的并行策略,帮助用户快速进行性能调优,以达到该配置下的最优性能。万卡大规模集群资源中心容器镜像高性能计算操作系统OS高性能存储高性能网络NVDIA、昆仑、昇腾等CentOS、Ubuntu、麒麟等对象存储、并行文件存储容器网络、IB/ROCEAI集群管理BCCL通信库AIAK训练加速数据加速AI组件算力池化用户中心ContainersVirtual Servers训练任务模型部署容器引擎调度安排数据中心运维中心模型弹性化托管训练推理加速统一用户界面:Console、API、CLI资源利用率提升多元芯统一管理任务快速排障轻量快速交付优势场景能力中心平台组件基础设施监控运维在AIHC PRIVATE中,支持用户一键开启容错,覆盖了训练进程Hang、训练心跳失联、训练进程报错异常退出、Pod被误驱逐等场景的故障感知定位&自动恢复能力,可完成训练异常感知,提供了强大的训练异常感知能力,能够检测到任务退出、任务假死、运行缓慢等常见故障场景。特别是对于难以识别的任务hang场景,百度百舸AI计算平台基于百度内部大量的最佳实践制定了指标体系,可以及时发现问题。进行容错判断,基于其资源池的自动故障隔离能力,能够检测任务所在节点是否发生故障。一旦检测到故障,平台会自动隔离该节点,并触发任务容错流程。同时可完成任务异常自动恢复,针对节点故障导致的任务异常场景,千帆异构算力管理平台会尝试通过重调度训练任务的能力,快速恢复任务。具体来说,当检测到节点故障时,平台会自动隔离故障节点,并将任务重新调度到健康的节点上继续运行。关于 IDC国际数据公司(IDC)是在信息技术、电信行业和消费科技领域,全球领先的专业的市场调查、咨询服务及会展活动提供商。IDC帮助IT专业人士、业务主管和投资机构制定以事实为基础的技术采购决策和业务发展战略。IDC在全球拥有超过1100名分析师,他们针对110多个国家的技术和行业发展机遇和趋势,提供全球化、区域性和本地化的专业意见。在IDC超过50年的发展历史中,众多企业客户借助IDC的战略分析实现了其关键业务目标。IDC是IDG旗下子公司,IDG是全球领先的媒体出版、会展服务及研究咨询公司。IDC ChinaIDC中国(北京):中国北京市东城区北三环东路36号环球贸易中心E座901室邮编:100013 .Twitter:IDC版权声明凡是在广告、新闻发布稿或促销材料中使用IDC信息或提及IDC都需要预先获得IDC的书面许可。如需获取许可,请致信。翻译或本地化本文档需要IDC额外的许可。获取更多信息请访问,更多有关IDCGMS信息,请访问https:/ IDC。未经许可,不得复制。保留所有权利。
2025-08-29
58页




5星级
AI 安全系列研究报告 安全优先的大模型 *安全优先的大模型 目 录 本报告调研的入选标准.1 本报告调研的安全能力供应商.1 报告背景.2 关键发现.3 一、概念定义.4 1.1 定义.4 1.2 定义解读.4 二、发展潜力.6 2.1 市场发展驱动力.6 2.1.1 大模型内生“缺陷”转化为安全原生需求.6 2.1.2 大模型强监管态势夯实安全合规基础.7 2.2 安全能力核心逻辑.8 2.2.1 以“模”制“模”.8 2.2.2 以权限和身份管理重塑业务.9 2.2.3 以安全工程保障系统工程.9 2.3 未来趋势.11 2.3.1 大模型重塑数字生活,人工智能治理道阻且长.11 2.3.2 端侧大模型需求激增,安全能力需要新突破.11 2.3.3 后训练是应用关键,数据价值再次攀升.11 2.3.4 公众模型成为基础设施,智能体百家争鸣.12 三、推荐供应商.13 四、安全能力.17 4.1 大模型业务系统安全风险.18 4.2 安全优先的大模型能力图谱.20 五、解决方案/典型案例推荐.22 5.1 大模型安全解决方案.22 方案背景.22 方案概述.22 解决方案核心价值.23 AI 安全产品详解.24 5.2 数字政府智算服务一体化安全保护案例.28 安全优先的大模型 项目背景简介.28 大模型业务系统安全保护需求.28 整体解决方案.28 5.3 科技制造业大模型安全防护案例.33 项目背景简介.33 大模型业务系统安全保护需求.33 整体解决方案.34 核心安全能力.35 5.4 联想携手火山引擎推出可信个人云案例.37 项目背景简介.37 大模型业务系统安全保护需求.38 整体解决方案.38 核心安全能力.39 5.5 央企大模型综合治理案例.41 项目背景简介.41 整体解决方案.41 核心安全能力.42 5.6 杭州市数据资源局大模型安全防护案例.45 项目背景简介.45 大模型业务系统安全保护需求.45 整体解决方案.46 核心安全能力.46 1/47 本报告调研的入选标准本报告调研的入选标准 具有 AI 研究能力、大模型安全保护产品具备自主知识产权,通过 SaaS 或私有化部署方式,为企业用户提供保护大模型业务应用的产品、服务、解决方案的安全厂商。本报告调研的安全能力,不包括通用安全,只针对明确的大模型合规要求或大模型业务系统特有安全需求。产品或服务可被完整交付,解决方案有实际场景或落地案例为支撑。接受数世咨询的调研与访谈,并承诺提供数据的真实性。本报告调研的安全能力供应商本报告调研的安全能力供应商 (按调研顺序排序)2/47 报告背景报告背景 人工智能技术已经在全球范围内得到了普及,而大模型作为人工智能的复杂应用,在以中美为核心引领的环境下,已经为人类带来了极大的震撼。随着人工智能技术的不断发展,在可预见的未来,通用大模型将成为数字智能的基础设施。当前,通用大模型竞争格局逐渐明朗,人们也越来越清晰的认识到,人工智能的价值并不在于模型本身,而在于其深度融合并改造业务场景的过程。以专业领域大模型为核心的大模型业务系统(包括智能工作流和智能体)和具身智能接棒开启了新一轮的白热化竞争。为了推动大模型业务系统和具身智能等人工智能应用的持续发展,更为了用户可以合规、安全的使用大模型赋能业务,数世咨询特开展了本次调研工作。希望本报告可以帮助使用大模型的用户,了解大模型业务系统中的安全风险和相应的安全能力供应商,在大模型业务系统建设和运营时提供有益的参考。3/47 关键发现关键发现 大模型安全保护市场,自 2025 年开始加速进入需求爆发期,现阶段以合规为核心驱动。随着大模型稳定性以及数据要素价值的升高,未来以“合规 业务”为双轮驱动。大模型本身不等于大模型业务系统(包括使用大模型的工作流和基于大模型的智能体),前者是后者的子集,后者需要通过系统化的安全保障能力满足业务系统安全需求。大模型业务系统安全与数据安全的保护理念是一致的,都需要深度融入业务流程和数据流向之中,对数字安全产业来说既是挑战也是机会。现阶段面向公众提供服务的大模型,其核心需求是备案全流程服务,上线后则侧重内容风控。为企业经营赋能的大模型,其核心挑战是引入大模型后对原有业务流程和访问控制的重塑,关键点是数据泄露防护。现阶段,用户需求较为集中且安全供应商可完整交付的、较为成熟的安全产品和服务主要有大模型安全围栏、内容风控、风险评测与备案服务。4/47 一、一、概念定义概念定义 1.11.1 定义定义 数世咨询将安全优先的大模型定义为:由于大模型原生安全缺陷和业务系统内生安全风险无法避免,为了有效控制安全风险为企业带来的经营风险、更为了实现较高水平的社会治理,在建设、运营、监管大模型业务系统过程中的一种思想,即安全优先。1.21.2 定义解读定义解读 这里的安全并不特指网络安全,而是由于科学技术的应用可能给社会带来的潜在影响,由于必须保障这种影响是积极、可控的,所以安全性是必须优先考虑的。国家层面,大模型的应用在军事(如认知域作战)、生物(如蛋白质结构)、医疗(如影像诊断学)等方面已经展现出强大推动力,但生成内容的准确性、系统的鲁棒性都是必须优先解决的关键问题,如处理不当将会造成不可预估的颠覆性灾难。社会层面,大模型正在对人们的生活产生潜移默化的影响,如搜索方式的转变(搜索引擎到大模型应用)、内容创作的转变(人的独创到人与大模型的交互)等,但大模型应用对个人信息的滥用、对流程化工作岗位的取代等社会现实问题已经成为热点讨论话题,如处理不当将引发生群体性事件导致社会动荡。企业层面,大模型可以赋能数字化应用从而促进核心业务发展,如商业数据分析(突发性、创意性数据分析需求)、产品智能化升级(自动驾驶路径规划)、自动化安全运营(7*24 小时告警降噪)等,但敏感信息和业务数据泄露以及知识产权保护等问题都与企业经营息息相关,如处理不当将使企业遭受巨大经济损失。综合来看,大模型应用安全风险所造成的负面影响通常是无法被接受的,这也就直接导致了大模型应用畏首畏尾的局面,究其根本原因是对大模型的不信任。5/47 而安全能力通过针对性和体系化的保障手段可以间接提高信任度和满足合规要求,所以安全优先的大模型可以有效推动大模型应用发展。6/47 二、二、发展潜力发展潜力 大模型的特异性来源于人工智能算法、模型权重和训练数据,大模型的业务系统依托于基础设施和供应链,大模型的应用价值靠高质量数据集和业务的互动来实现。所以实现安全优先的大模型是一项系统性工程,它包含了国家安全、社会治理以及企业的网络与数据安全。2.12.1 市场发展驱动力市场发展驱动力 “安全优先的大模型”真正实现了业务驱动的逻辑闭环,数字安全产业自此正式开启“以合规为基、以业务为柱”的新价值时代。网络安全领域的发展主要以监管合规的要求为核心(产值贡献 80%以上)驱动,虽然安全保障也涉及业务连续性方面,但更多的原因是关键信息基础设施发生安全风险会对国家安全、社会治理带来重大威胁。数据安全领域的发展虽然本质上是合规和业务双轮驱动的,但在现阶段我国数据流通基础设施尚未完善、数据交易体系尚未健全的情况下,数据要素价值还没有找到充分释放的场景,数据安全仍然以合规监管为核心驱动。然而人工智能安全却在诞生之初就具备业务驱动的逻辑闭环,真正实现了“以合规为基、以业务为柱”的驱动形态。2.1.12.1.1 大模型内生“缺陷”转化为安全原生需求大模型内生“缺陷”转化为安全原生需求 大模型的突破性进展催动人类加速步入 AGI 时代,在人工智能逐渐成为数字化基础设施的这一背景下,对于国家、社会、企业来说已经无需再探讨是否使用人工智能的话题,关键是解决如何利用好人工智能的问题。对于企业来说,人工智能所带来的高效性是数字时代商业竞争的核心支撑,不使用人工智能的企业终将丧失竞争力,彻底出局。7/47 但大模型自身安全问题无法彻底解决,如幻觉、数据漂移、非预期行为等,更为关键的是大模型应用安全风险全部来源于具体业务系统的风控需求,这不仅仅是基础设施层面的安全可靠性保障,而是业务应用层面的价值保障。由于大模型的性能和创造力与安全对齐的强度是成反比的,不能本末倒置的为了追求安全性而降低大模型的应用价值,只能通过后期工程化的方式用系统性的安全能力满足各类应用场景的安全需求。所以这种大模型的内生“缺陷”就决定了大模型业务系统与安全能力的孪生属性,安全能力就成为了大模型应用的原生需求。大模型业务系统支撑企业的数字化业务,数字化业务的发展决定了安全优先的大模型市场规模的高度,业务驱动则成为了大模型安全的支柱。2.1.22.1.2 大模型强监管态势夯实安全合规基础大模型强监管态势夯实安全合规基础 自人工智能技术诞生之初,人工智能治理的概念在全球范围内就得到了共识。我国作为人工智能强国,在 2023 年“一带一路”峰会上,由习近平主席发布了全球人工智能治理倡议,倡议人工智能的发展要以人为本,建立健全法律和规章制度。在 2025 年世界人工智能大会上,由李强总理发布了人工智能全球治理行动计划,强调把握机遇共同发展,并开展人工智能安全治理。全球范围内对人工智能,尤其是生成式大模型应用都处于高位监管态势,我国陆续发布了互联网信息服务算法推荐管理规定、互联网信息服务深度合成管理规定、生成式人工智能服务管理暂行办法、人工智能成合成内容标识办法以及国家标准生成式人工智能服务安全基本要求,从算法安全、语料安全、模型安全、应用安全以及模型上线等过程均有高强度监管要求。除此之外,中央网信办还开展了“清朗整治 AI 技术滥用”专项行动,统筹协调全国各地对 AI 技术滥用、AI 管理缺失等现象进行整治,成果颇丰。在人工智能强监管态势的确定性环境中,深入实施“人工智能 ”行动将继续促 8/47 动人工智能的发展,从而进一步夯实人工智能安全合规基础。2.22.2 安全能力核心逻辑安全能力核心逻辑 由于实现安全优先的大模型需要依靠技术和管理手段,所以相应的大模型安全保护产品、解决方案和服务也就应运而生。实现这些安全能力的核心逻辑有三点,分别为以“模”制“模”、以权限和身份重塑业务、以安全工程保障系统工程。2.2.12.2.1 以“模”制“模”以“模”制“模”以“模”制“模”的本质是基于大模型性能与安全性无法平衡的根本属性(安全对齐强度与创造力成反比),用安全专业“小”模型消减大模型输入风险、审核大模型输出内容,实现最高的投入产出比。但用户在选择产品时需要注意分辨,其中最重要的语义分析不是关键字匹配,而是意图推测和多轮对话的上下文关联分析,有些厂商会混淆概念以夸大自身能力。如果内容安全控制方面存在多模态需求,更需要进一步甄别,多模态识别能力与人工智能研究能力强相关,不同供应商之间差别较大。对抗性攻击防护对抗性攻击防护 提示词注入、模型规避(Model Evasion Attacks)等对抗性攻击,有效的解决方法是对模型进行代码调整,但其花费的时间和金钱成本较高,而这些攻击又相当于软件的零日漏洞,是不可计量、无法预测的。前置语义检测安全大模型是简单、有效、低成本的最佳方法,对于已经发现的对抗性攻击类型可以直接进行防护。对于未发现的对抗性攻击类型,只需要对安全大模型进行少量调整即可,而安全大模型的代码调整、更新部署是极其快速和简便的。因为其本质是由大模型蒸馏而来的“小”模型,并且其更新与业务系统和流程不产生直接影响。9/47 输出审核输出审核 大模型幻觉问题至今无法有效解决,价值观偏见、不安全的输出也会随着数据漂移、数据投毒等问题逐渐失效。还有,不同用户对敏感数据的定义也不尽相同,在输出内容的控制上无法通过模型自身满足不同需求。解决这些问题同样需要从模型训练和数据入手,其花费的时间和金钱成本较高。而通过安全大模型对输出的内容进行审核或代理回答,既灵活又简单,通过自定义的输出内容审核规则,可以满足不同用户的个性化需求。2.2.22.2.2 以权限和身份管理重塑业务以权限和身份管理重塑业务 权限和身份重塑的本质是为了解决业务系统引入大模型后,由于业务系统流程逻辑变更从而导致的原有身份和权限控制失效,致使发生商业数据泄露、信息泄密、敏感信息泄露、知识产权受损等事件。如引入大模型的人力资源系统、文档管理系统,原有控制是通过身份来设置的数据访问权限,用户通过应用系统访问数据库。由于大模型的引入改变了用户与系统的交互方式,用户通过大模型访问数据库,任意员工均有可能通过与大模型的交互绕过原有身份权限获取更大范围的数据、信息。有效应对的方法是通过业务具体控制需求和流程,以模型权限、用户身份管理为核心,辅助 UEBA、API、数据分类分级以及模型交互审查等技术,重塑业务系统安全控制体系。2.2.32.2.3 以安全工程保障系统工程以安全工程保障系统工程 系统保障的本质是为了解决大模型应用风险的传递性,通过安全系统对信息系统的全生命周期、数据处理的全流程进行整体性、体系化的安全保障,利用技术和管理手段构建全方位、多层次的安全能力。由于大模型的本质是软件,在应用过程中扩展为信息系统,涉及网络与数据基础 10/47 设施、软件与模型供应链、数据管理、应用管理等,此时的大模型安全风险已经从大模型自身扩展到了大模型应用系统,每一个环节的安全风险都可能会引起大模型应用的安全事件,如非授权访问、敏感数据泄露,而这些安全风险也会通过系统的传递性间接影响大模型自身,最终产生各类安全问题。数据安全数据安全 大模型应用涉及预训练数据、后训练数据、RAG 数据、用户输入数据、模型输出数据等,在数据处理的各环节都有相应的安全风险,如数据投毒、数据窃取、个人信息保护、敏感信息泄露等。对于这些数据处理的全流程都需要进行安全保障,在通用数据安全和个人信息保护能力之上,还需要数据标注、数据清洗、数据聚合泄密、信息推断泄露等大模型专有数据安全保障需求。供应链安全供应链安全 大模型应用的供应链涉及算法、模型、框架、部署与推理工具、集成组件,在供应链上的每一个安全风险都可能影响整个大模型应用系统的安全。如利用部署与推理工具Ollma的安全漏洞进行模型窃取,在GitHub上传恶意组件包预留后门。对于供应链安全风险,与通用软件供应链安全保障思路一致,目前并未发现大模型专有安全保障需求。基础设施安全基础设施安全 大模型系统的基础设施安全需求总体上与通用信息系统一致,安全保障技术和思路延用通用网络安全来构建体系化的保障能力。唯一需要注意的是,在可预见的未来,智能手机、智能设备以及具身智能会成为新的大模型主要运行环境,而且都有其各自的特性,比如操作系统、存储类型、交互方式等,需要考虑安全防护能力在算力、存储等方面的限制,进行轻量化、针对性设计。11/47 2.32.3 未来趋势未来趋势 2.3.12.3.1 大模型重塑数字生活,人工智能治理道阻且长大模型重塑数字生活,人工智能治理道阻且长 大模型的应用已经悄然改变了互联网搜索的交互方式,随着应用的深入,会有更多的传统数字化应用交互方式被改变,未来还会出现全新的数字化交互方式重新塑造数字生活。在面对一个全新的数字化社会形态时,尤其是在大国竞争转为贸易战和科技战的背景下,人工智能作为可以赋能第一二三产业的全面型应用,势必会受到额外的重视。价值越高,风险越大,未来的人工智能治理道阻且长,需要国家、社会、企业共同参与,贡献自己的力量。2.3.22.3.2 端侧大模型需求激增,安全能力需要新突破端侧大模型需求激增,安全能力需要新突破 模型蒸馏使得大模型轻量化成为可能,目前已经出现了内置大模型的 PC 和智能手机,而且这种趋势必将快速演进。随着端侧大模型需求激增,对大模型的安全保护又有了新的要求。现在的大模型都部署在云环境或者一体机中,用户应用大模型都需要通过网络来完成,而端侧则由用户直接与大模型进行交互,通过网络边界提供的安全能力立即失效。端侧大模型的保护需要安全能力进行针对性设计,不仅要适配端侧算力和存储的要求,最重要的是提供离线使用控制能力,在不损失大模型应用价值的同时确保大模型和输出内容的安全与合规。2.3.32.3.3 后训练是应用关键,数据价值再次攀升后训练是应用关键,数据价值再次攀升 全球范围内,当前通用大模型参数规模已经突破 3000 亿,且发展趋势由预训练转为强化学习主导的后训练。由于距离实现通用人工智能还有很长的路要走,大 12/47 模型基础研究依然十分重要。但后训练涉及的微调、强化学习和规模扩展等技术,其核心之一就是高质量数据。高质量数据通常是由实际工作环境中获得或通过其他高质量数据合成,但由于受生成合成数据的模型自身稳定性的影响,合成数据会具有更高的风险。基于此,获取高质量数据的关键还在行业真实环境,数据的价值因为人工智能再一次得到升级,由数据资产上升成为知识产权。相应的,对于数据的安全保护难度也再一次升级。2.3.42.3.4 公众模型成为基础设施,智能体百家争鸣公众模型成为基础设施,智能体百家争鸣 虽然大模型基础研究十分重要,但当前人们已经广泛的认识到,人工智能的价值并不在于模型本身,而在于其深度融合并改造业务场景的过程中。而智能工作流、智能体和具身智能是当前可充分发挥大模型价值的载体。随着通用大模型竞争逐渐明朗,通用大模型将成为数字化的基础设施,而以领域大模型为核心的智能工作流、智能体和具身智能将展开新一轮的白热化竞争态势,呈现出百家争鸣的现象。由于智能体应用的发展,将会出现越来越多的具体安全需求,也会相应诞生与之相匹配的大模型业务系统安全解决方案。届时,安全优先的大模型概念必将深入人心,大模型安全保护产品、服务和解决方案也将迎来真正的爆发。13/47 三、三、推荐供应商推荐供应商 在本报告调研的过程中,数世咨询发现,现阶段可提供大模型安全保护产品、服务、解决方案的供应商共 30 家(不包括通用安全能力)左右,参与本次调研工作的共 23 家。根据调研数据,结合各供应商在安全优先的大模型领域中的资源投入、AI 研究能力、产品能力、服务水平以及分析师评价,数世咨询评选出 6 家“安全优先的大模型推荐供应商”。奇安信奇安信 作为国内网络安全行业领军企业,奇安信集团密切关注人工智能大模型及应用系统全生命周期的主要威胁,深度参与国家相关标准与规范的制定与起草工作。奇安信是信通院“云上大模型安全推进方阵”成员单位、生成式人工智能服务安全应急响应指南网络安全标准实践指南起草单位、大模型安全测评标准参编单位、安全大模型能力要求与评估方法核心参编单位。目前,奇安信针对大模型安全提供涉及安全开发、安全合规测试、安全评估、安全运行防护、智能安全运营与安全响应在内的多项产品与服务,包括大模型安全评估服务、大模型安全卫士、零信任访问控制、数据安全网关、特权卫士、代码 14/47 /开源卫士等,致力于为人工智能大模型及应用系统提供全生命周期的安全保障,确保广大政企机构的智能化转型安全顺畅。绿盟科技绿盟科技 绿盟科技依托二十余年网络安全深耕与十余年 AI 安全研究,已形成覆盖“研究产品运营”全栈的大模型安全能力。公司设有星云、天枢两大 AI 安全实验室,累计发布大模型安全风险矩阵 SecLLM 技术白皮书等权威报告,并参与制定国内首个 云上大模型安全参考架构,成为“云上大模型安全推进方阵”首批成员。面向产业落地,绿盟推出“AI-UTM 安全一体机”与“大模型安全围栏”双轮产品:一体机集成“AI-Scan”、“AI-AFW”、“AI-CONT”、AI-DLP”四大引擎,形成“评估 加固、阻断 代答、审计 回溯”三道纵深防线。其中,AI-Scan 贯穿“训练-部署-运营”全周期,内置百余种对抗样本模板与自动化变异算法,可在分钟级完成提示注入、越狱攻击、幻觉诱导等 20 类风险场景的红队测试,并输出 CVSS-AI 评分及修复建议。围栏则以意图识别、提示词过滤、算力熔断为核心,解决 API 滥用、投毒、幻觉等场景化痛点。在合规与供应链维度,绿盟建立 RAI 负责任 AI 框架,形成覆盖基座、数据、模型、应用、身份五大域、56 子域的评估体系,已为金融、运营商、政务等头部客户完成十余个大模型的合规备案与对抗测试。同时,绿盟开放 AI 安全生态社区,携手合作伙伴持续输出威胁情报、最佳实践与人才培养计划,实现大模型安全的可持续演进。联通数科联通数科 联通数科推出“智盾智算安全防护体系”,助力全面识别并应对智算服务中的潜在安全风险,打造端到端的智算安全产品能力,为各类智算应用提供内生式、一体化的安全解决方案。围绕智算基础设施和模型应用两大核心方向,提供一体化的安全防护方案。基础 15/47 设施层面,平台聚焦网络、负载、管理三大关键节点,整合联通 DDoS 防御、网络入侵防御、主机容器安全、平台安全管理审计等系列产品,构建起可防御、可管理、可审计、可溯源的立体化安全防护体系。模型与应用层面,平台重点针对模型、数据、应用三个维度,结合大模型风险评估、内容安全围栏、大模型防火墙、数据清洗审计等工具,形成覆盖智算服务全生命周期的安全保障机制。多层级联动防护,提升智算公共服务及私有化交付场景的安全效能。融合联通智算基础设施和服务能力,采用平台化思路整合原子级安全能力,实现全局视角的风险评估、分析研判、响应处置与事件溯源,构建起涵盖事前安全评估、事中主动防御、事后追踪溯源的一体化安全架构,整体安全防护效率提升 30%以上。联通数科智盾智算安全防护体系切实保障人工智能技术应用过程中的安全可靠、内容可信、风险可控,是支撑国家安全体系建设的生动实践。火山引擎火山引擎 火山引擎是字节跳动旗下云和 AI 服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,通过云和智能技术帮助企业构建体验创新、数据驱动和敏捷迭代等能力,推进企业 AI 转型,激发增长潜能。火山引擎云安全依托字节跳动在安全技术上的实践沉淀,面向互联网、金融、汽车、大消费等行业输出云上安全能力,保障企业用户网络、数据、云原生、终端、大模型等的安全。同时,紧贴客户需求,重点布局大模型安全、数据隐私安全、AI 安全智能体等领域,致力于在 AI 时代,为企业大模型应用提供最全面的云上安全防护方案。安泉数智安泉数智 安泉数智深度参与国家人工智能安全顶层设计,参与和起草多项行业标准。以“AI 对抗 AI”的理念推出“大模型安全综合治理平台”。业界首创“RAPAO”大模型安全五步闭环管理模型,从模型训练、部署和运行,覆盖大模型全生命周期十个方面安全问题。该方案包括大模型资产台账系统、人工智能模型评测平台、人工智能增强平台和大模型审计与配置系统以及大模型安全运营系统。16/47 不仅涵盖数据安全、模型鲁棒性与算法合规性等风险,深入大模型安全机理研究,构建起实时溯源、可控的风险监控与资源调度体系。通过有害内容拦截、越狱攻击检测、敏感词过滤等输入管控功能,以及内容合规检查、有害内容替换、隐私数据脱敏等输出管控功能,确保大模型生成内容的安全性与合规性,为开发者与企业提供高效、可靠的安全防护解决方案。“配置审计”精准纠偏,梳理关键配置项,制定基线标准,保障模型配置合规;“安全运营”持续改进,通过实时监测、快速响应与持续优化实现动态闭环,提升风险事件响应速度。助力应对 AI全生命周期安全挑战,通过持续技术创新,助力 AI 造福人类。公司通过资产-评测-防护-治理-运营五位一体架构,将技术能力与行业需求深度融合,为监管、能源、金融、政务等领域提供从风险预警到主动免疫的闭环防护,树立大模型安全可信应用标杆。360360 数字安全数字安全 360 依托二十年来网络安全领域的深厚积累、AI 领域的技术深耕以及 AI 业务(360 智脑、纳米搜索等)的安全实践,形成了“懂 AI 更懂安全”的跨领域优势,提出“以模制模”新范式,即利用人工智能技术自身优势对抗 AI 安全风险,打磨出 360 大模型安全卫士,解决 AI 自身安全“可靠、可信、向善、可控”四大核心问题。“可靠”指聚焦模型基础安全问题,智能识别供应链开源软件漏洞和 AI 自身缺陷,实现模型资产闭环管理,保障系统环境安全;“可信”与“向善”则针对模型原生安全挑战,借助幻觉抑制、内容安全防护等技术,保障输出内容真实可信、符合社会良善导向,应对误导、违规风险;“可控”强调智能体执行安全,通过身份认证、权限管控、异常识别等,防范数据泄露与越权操作,确保 AI 行动能力可控。整套体系通过 AI 对抗 AI 的闭环设计,实现了从源头上化解威胁的全局方案。同时,360 积极配合推动 AI 安全行业发展,作为国家人工智能标准化大模型专题组联合组长单位,公司积极参与国标与安全框架的制定,并牵头发起大模型安全联盟,打造资源共享、共创共赢的生态集群。未来,360 将深化生态协作,致力于为 AI 时代的可持续发展注入强劲动力,助力构建更可信赖的智能世界。17/47 四、四、安全能力安全能力 数世咨询持续关注并研究人工智能领域,在大模型安全方面,已经发布了LLM驱动数字安全(关注“数世咨询”公众号,回复“安全大模型 2024”下载)调研报告,该报告核心方向为利用大模型赋能安全运营。大模型安全分为两方面,一是利用大模型做安全,一是保护大模型安全。本报告所介绍的安全能力方向为保护大模型安全,即安全优先的大模型。在理论层面上,大模型的安全保护关注 4 个方向,即 AI 治理、数据安全、模型安全和基础设施安全,如上图所示。在实际应用的过程中,站在企业用户的角度上,现阶段对于大模型业务的安全保 18/47 护则主要围绕大模型业务系统以及数据处理全流程来展开。4.14.1 大模型业务大模型业务系统系统安全风险安全风险 大模型业务系统包括大模型赋能的工作流和基于大模型的智能体,在业务运营的过程中,各个阶段都存在着大模型特有的安全风险以及系统安全风险。企业用户的大模型业务大致可分为以下 4 个主要阶段:预训练:大型科技企业或科研机构会通过预训练的方式生成自己的通用大模型,其他企业通常会以开源通用大模型或者商业通用大模型作为自己的基础模型代替预训练阶段。后训练:通用大模型的核心是思维推理能力,而解决具体问题的能力是由后训练提供的。后训练包括更加深入的领域知识强化学习以及价值观对齐,企业用户可以自己进行模型微调或者购买专业的领域大模型。开发与部署:拥有领域大模型后就可以进行业务系统的开发、部署,目前较为成熟的大模型业务模式为智能工作流和智能体两类,由于业务的多样性可能涉及与各类应用工具或其他智能体交互。为了使大模型业务应用输出更加准确,通常还会与 RAG 数据进行交互,获取实时数据。推理与运营:大模型业务系统部署上线后即可进行推理任务,与其他信息系统一样,需要持续性的运营工作以保证其业务正常开展。在大模型业务运营的不同阶段中,由于安全能力不足没有执行相应的管理和控制措施,将会发生诸多类型的特定安全事件对业务产生负面影响,这些负面影响如下图所示:19/47 而这些相应的大模型业务系统安全风险,散布在大模型业务的不同关键节点中,如下图所示:20/47 根据大模型业务系统所面临的安全风险,经分析后整理成 6 种类型,如上图所示:供应链安全风险:主要存在于模型预训练、后训练、模型部署、模型推理所使用的各类框架、工具、类库之中,并存在安全风险的传递性,可能发生模型源篡改、敏感数据泄露等安全事件。数据安全风险:存在于数据处理的全流程,集中表现在预训练数据、后训练数据、RAG 数据上,可能发生数据投毒、敏感数据泄露等安全事件。内容安全风险:大模型业务应用特有的安全风险,存在于输入与输出内容之中,可能发生对抗性攻击、敏感数据泄露等安全事件。业务应用安全风险:存在于大模型与工具或其他智能体的交互过程中,目前主流交互方式有 API、MCP、A2A 等协议,可能发生非授权访问、敏感数据泄露等安全事件。模型安全风险:由模型自身特异性决定,不受外部威胁影响即可发生模型幻觉、数据漂移等相应安全事件。基础设施安全风险:存在于大模型业务系统的存储、运行环境中,可能发生模型窃取、非授权访问等安全事件。4.24.2 安全优先的安全优先的大模型能力图谱大模型能力图谱 为了有效应对大模型业务系统的安全风险、降低安全事件产生的负面影响,数世咨询根据调研信息绘制了“安全优先的大模型能力图谱”,旨在为开展大模型业务的用户,在供应商选择和产品选型方面提供有益的参考。“安全优先的大模型能力图谱”根据大模型业务系统安全风险,一一对应分为六类,同样为供应链安全、数据安全、内容安全、业务应用安全、模型安全和基础设施安全。能力图谱中,不同的安全能力即可有效应对大模型业务系统中各个关键节点可能面临的安全风险,完整图谱如下。21/47 22/47 五、五、解决方案解决方案/典型案例典型案例推荐推荐 5.15.1 大模型安全解决方案大模型安全解决方案 方案背景方案背景 随着人工智能技术的迅猛发展,大模型在政务、金融、运营商、医疗、制造等众多领域得到了广泛应用。然而,大模型特有的安全风险和日益严格的合规要求正成为制约其发展的关键因素。大模型面临的安全风险表现在几个方面:生成内容的不可控性:大模型在生成内容时可能存在偏见、虚假信息(幻觉现象)、道德争议性内容等问题,难以完全预测和控制输出结果。大模型应用下新的攻击方式:恶意用户可以通过设计特殊的输入(Prompt 注入),绕过模型的安全规则,使其生成敏感,或通过注入达到入侵业务系统的目的。模型算力耗尽导致业务连续性中断:攻击者可能通过诱导模型执行复杂推理链或无限任务循环,从而引发算力耗尽型拒绝服务(Compute-DoS)攻击。方案概述方案概述 绿盟科技凭借多年网络安全领域的技术积累,推出绿盟大模型安全解决方案,该方案由大模型安全评估系统(AI-SCAN)、AI 安全一体机(AI-UTM)两款产品组成,形成覆盖大模型全生命周期的安全评估和防护体系。23/47 在模型训练和微调阶段,大模型安全评估系统(AI-SCAN)发挥着关键作用。该系统基于大模型系统安全测评要求等标准规范,对大模型进行全方位体检。通过内置的 10 万 测试用例库,系统可模拟提示词注入、数据投毒等 21 类攻击手法,检测模型在内容合规性、对抗防御能力等方面的薄弱环节。特别是在供应链安全方面,AI-SCAN 能深度扫描.pb、.h5 等 15 种模型文件格式,识别后门植入风险,并对 Ollama、Ray 等 450 多个大模型组件进行漏洞检测,从源头保障模型安全。在模型部署和应用阶段,AI 安全一体机(AI-UTM)提供关键的运行安全保障。该产品采用独特的三体防护架构,在内容安全方面建立三级过滤机制:基于 30万 敏感词的词法检测实现毫秒级响应;通过自研风云卫模型进行语义理解,识别变体违规内容;利用 128K tokens 的上下文记忆窗口确保多轮对话中的精准判断。在算力安全方面,其可将算力资源划分为保障级、普通级和限制级,通过预测算法防止 Token 耗尽攻击,保障模型服务安全稳定。在应用和智能体运行阶段,AI 安全一体机(AI-UTM)针对大模型特有的漏洞攻击场景,构建了多维度、智能化的防护体系,通过深度语义分析及动态检测引擎,精准拦截 SQL 注入、XSS、SSRF 等传统 Web 攻击,防止攻击者利用漏洞入侵大模型后端服务或窃取数据。通过多维度检测机制(如关键词过滤、上下文语义分析、异常输入模式识别),阻断恶意构造的提示词输入,避免模型被诱导输出违规内容或泄露训练数据隐私,保障模型应用安全。解决方案核心价值解决方案核心价值 24/47 全生命周期安全防护全生命周期安全防护 训练和微调阶段:通过 AI-SCAN 进行模型安全评估,识别训练数据投毒、后门植入等风险 部署和应用阶段:利用 AI-UTM 提供内容安全防护、算力资源管控和数据泄露防护 模型和智能体应用阶段:通过 AI-UTM 实现业务应用/API 暴露面的软件漏洞及应用层攻击防护 多维安全能力融合多维安全能力融合 安全运营:组件间联动运营,AI-SCAN 评估的风险可输入给 AI-UTM、AI-UTM,从而生成安全防护策略,形成 AI 安全运营和闭环 合规性保障:满足 TC260-003 技术标准、大模型备案等合规要求 全面风险识别:覆盖提示注入、越狱攻击、敏感信息泄露等 21 类对抗风险 AIAI 安全产品详解安全产品详解 大模型安全评估 AI-SCAN AI-SCAN 是一款专业的大模型安全评估工具,凭借专业人员精心筛选和校准的高级知识库,该系统可高效精准地检测大模型在生成内容安全、对抗防御能力以及供应链安全三方面可能存在的隐患,并且可通过自定义导入企业内部风险库进行针对性的大模型安全风险智能化评估,最后通过详尽的可视化风险评估报告为用户提供深刻洞见。核心功能 内容合规评估:严格依据 GB/T 45654-2025 标准,通过多维度评估引擎,实现对模型输出内容的全面安全合规验证 对抗防御评估:覆盖模型越狱、Prompt 泄露、角色逃逸、反演攻击等 7 大类22 小类对抗安全风险 25/47 模型后门检测:提供先进的恶意模型后门检测分析技术,覆盖 15 种主流 AI模型文件格式的后门风险检测 模型组件漏洞扫描:覆盖数据处理访问、训练部署、ML Ops 等 13 个大模型全生命周期中涉及的组件及 Web 应用服务的漏洞检测.漏洞数量 3000 。自定义题库智能评估:行业特色或特定场景化题库快速导入,内置匹配类、智能评估类、拒答类等多种评估器灵活适配不同题库场景 技术优势 全面性:覆盖伦理对齐、对抗攻击防护、供应链检测等多个维度 创新性:采用以模治模、高效匹配、拒答判断等多种评估方式 高效性:支持并行处理,单任务评估时间30 分钟 兼容性:全新大模型分钟级适配接入,简单快捷 简洁性:跟踪说明风险检测的全过程,采用易读易懂的方式展示每条风险详情 灵活性:除内置多种题库外,可灵活增加其它特定场景题库评估 典型部署场景 AI 安全评估系统旁路部署,生成多样化的对抗攻击样本和内容合规风险样本,用于评估各版本大模型在不同应用场景中的输出内容安全性 AI 安全一体机 AI-UTM AI 安全一体机是专为大模型场景设计的新一代安全网关,采用创新的三体防护 26/47 架构,深度融合规则引擎与 AI 算法,提供内容安全防护、算力资源管理、数据泄露防护和大模型安全评估四大核心能力。为大模型基础组件安全、大模型自身安全、大模型应用安全、大模型数据安全,提供分层递进的防护能力。核心功能 内容安全防护:三级内容过滤体系(词法、语义、上下文),128K tokens 记忆窗口 提示词加固:对传递给大模型的指令,可配置策略限制提示词语境环境,有效降低大模型自身安全风险。算力资源管理:三级优先级动态分配策略,智能预测算法防止系统过载 数据泄露防护:敏感信息识别准确率超过 99%,支持文本、图片等多模态内容识别 全链路审计:支持智能体应用、大模型 API 输入输出的全链路安全审计 技术优势 场景接入灵活、全面:同时防护大模型流量 传统 Web 流量,快速兼容各类大模型应用和传统 web 应用藕合的客户场景 高性能:毫秒级实时响应,支持流式检测、不影响模型业务模式 高可靠:可集群部署,服务可用性99.9%易管理:可视化控制台,多维策略配置集中管理 部署模式(部署在模型前)典型场景 1 27/47 AI 安全一体机部署在大模型服务的 API 接口前,隐藏大模型服务真实 API,实现AI 网关、key 和 token 管控、内容安全合规、提示词攻击防护、算力攻击防护、智能体级对话审计等功能,提供一站式大模型服务安全防护 典型场景 2 AI 安全一体机部署在调用大模型能力的业务应用/Web 服务前,对外隐藏业务应用,实现内容安全合规、提示词攻击防护、算力攻击防护、数据泄露防护、用户级对话审计等功能,提供一站式大模型服务及智能体应用安全防护。本方案由绿盟科技提供 28/47 5.25.2 数字政府智算服务一体化安全保护案例数字政府智算服务一体化安全保护案例 项目背景简介项目背景简介 某省政府已完成能智能支撑平台建设,平台采用“115 N”架构进行建设,打造1 个知识中心、1 个模型中心、5 个智能化支撑平台,为 N 个场景智能化建设提供支撑服务。平台及其生产的智能应用(智能问答、智能写作、智能搜索等),在智算基础设施、模型、应用、内容层面需要一体化安全能力建设,以满足规划要求以及内生安全建设需求。大模型业务系统安全保护需求大模型业务系统安全保护需求 由于平台所生产的智能应用,需要面向公众提供 AI 服务,所有智能体均采用统一平台构建,对于 AI 服务在模型应用以及内容安全层面的安全风险和防护需求,主要集中在三个层面:合规性内生安全:以生成式人工智能服务管理暂行办法为依据,针对对公服务的智能化应用开展备案前的风险评估以及日常风险巡检,及时发现智能化应用的潜在风险问题,联合其他工具进行针对性的安全防护建设;应用层统一防护:省级智能化应用存在海量的潜在用户,需要进行一体化的应用层安全防护能力建设,规避 Web 攻击、API 异常调用、提示词注入、算力消耗等攻击风险,同时需要以低延时的效果提升用户的交互体验;多模态内容安全:智能化应用涉及到 AIGC 的多个领域,对于输出的多模态内容需要进行安全过滤,同时针对用户提交的敏感问题,需要智能化安全代答,在保证输出内容合规的前提下,对用户进行向善引导;整体解决方案整体解决方案 联通智盾智算安全防护体系,依托联通“国芯 国算 国模 国盾”四位一体的战略布局,基于运营商云网数智资源禀赋,在网、端、管、控等基础设施安全能 29/47 力之上,深挖智算服务在模型、应用、内容层面的安全风险,通过大模型风险评估、大模型防火墙、大模型安全围栏等产品,在智算安全运营支撑体系下,切实保障人工智能的安全可靠、内容可信、风险可控。大模型风险评估大模型风险评估 大模型风险评估评估是一款专注于大模型安全评测的自动化工具,提供一站式的模型接入、数据管理、安全评测、任务管理及结果分析能力。通过预置的海量安全评测数据集和大模型自动泛化生成的攻击数据集,对模型供应链、应用层漏洞、模型内容安全、合规性满足、对抗攻击防御等方面进行综合评估。多维度测评数据集:内置海量行业标准安全测评数据集,覆盖国家安全、公共安全、伦理安全等多个评测维度,可通过大模型自动泛化生成攻击样本的能力,确保测评的全面性和时效性。智能化精准测评:通过优质题库 专业裁判大模型,采用先进的自然语言处理技术和智能算法,可实现高效、精准的安全检测。模型资产风险管理:提供模型基础设施安全、模型组件安全、模型应用安全等扫描能力,可覆盖服务开发、中间件、向量数据库等 35 种模型组件,可识别 22 种常见安全问题。30/47 大模型防火墙大模型防火墙 大模型防火墙,整合传统 Web 应用防火墙能力,针对智算服务使用场景,增加对于内容安全、提示词防护相关能力,实现对文本内容的输入攻击检测、输出安全过滤、敏感问题安全代答等功能,供给 All in one 的智算应用安全事中防护能力。一站式安全能力:整合基础安全防护组件,实现对传统 DDoS 和网络攻击的全方位防护,支持多模态注入攻击和有害内容检测,通过端侧水印技术实现高精准防薅羊毛与防爬虫,极大避免了因 tokens 盗用带来的经济损失。同时,将 Web 漏洞防护、抗 D 能力默认统一接入,一站式解决所有大模型 API 安全问题。安全防护低延时:风险监测延迟普遍在 150ms 以内,成功接入优化后,延迟稳定在 100ms 以内,可为后续高并发场景奠定性能基础。流式安全检测:具备业内领先的流式输出检测和拦截能力,由专业化和持续迭代的专业安全模型来识别恶意提示词,并对敏感问题进行代答和正向引导。31/47 大模型安全围栏大模型安全围栏 大模型安全围栏是专门为大模型服务提供方打造的多模态内容安全防护系统,通过风险内容检测、敏感问题代答等能力,帮助大模型过滤有害输入和输出内容,防止大模型生成不良信息。多模态内容检测:基于深度学习和大语言模型技术,可检测文本、图像、音频、视频、代码等多模态输入/输出内容,覆盖政治敏感、暴力违禁、虚假信息等超 100 种风险类型 智能化安全代答:对于敏感非拒答问题,通过干预库和安全回复大模型两个模块实现智能化安全代答,既能保证回答的广覆盖,也能提供精准匹配回答,引导输出内容安全向善。一体化风险运营:风控运营系统还通过规则引擎提供了细粒度的风控尺度调控,支持不同业务场景下不同的风控松紧度,提供风控数据统计功能,量化业务侧风险水位、防护效果和护栏的价值。32/47 本案例由联通数科提供 33/47 5.35.3 科技制造业大模型安全防护案例科技制造业大模型安全防护案例 项目背景简介项目背景简介 作为一家全球化布局的高科技制造企业,该组织在国内外拥有多个分支机构。公司高度重视信息安全,并严格遵循各业务所在国的监管合规要求。该组织积极推动生成式人工智能(GenAI)在内部运营与生产系统的深度应用。当前重点聚焦于 跨部门知识管理与共享:利用 GenAI 提升内部知识沉淀、检索与流转效率,赋能跨部门协作。智能化文档处理:应用 GenAI 技术实现文档的自动生成、摘要、翻译与关键信息提取,优化办公流程。大模型业务系统安全保护需求大模型业务系统安全保护需求 在上述应用实践中,确保以下方面至关重要:严格的信息安全严格的信息安全 保障公司敏感数据、知识产权及员工隐私在 AI 应用全生命周期的安全防护。组织已经在内部网络部署了多个生成式人工智能大模型,并为内部的多个应用提供模型服务。大模型的引入不仅增加了应用与数据的暴露面,攻击者同时有了新的攻击方式,例如利用提示词注入攻击操纵模型、利用向量与嵌入漏洞越权访问数据等,现有的安全防护手段无法有效发现和处理这些新型攻击。属地化人工智能合规属地化人工智能合规 满足各分支机构所在国家/地区关于数据主权、跨境传输及人工智能使用的特定法律法规要求。例如:欧盟人工智能法案、GDPR、GPAI 行为准则、生成式人工智能服务管理暂行办法等。34/47 用户体验与连续性:安全措施的部署和运行,应最大限度的减少对用户使用大模型应用的最终体验的影响,例如请求处理和答复响应的时间延迟;方便进行安全能力的扩展以适应业务处理能力的变化,并满足业务对安全组件的可靠性要求。整体解决方案整体解决方案 模型使用可见模型使用可见 通过旁路 API 访问代理引流的方式,对应用系统与模型服务之间的 API 请求和响应及交互的内容进行解密、完整可见与内容记录。为合规与安全访问审计提供全面的数据支撑。模型输入检查模型输入检查 通过协议解析对应用系统调用模型的提示词内容进行分离和多维度的检测,使用多种检测技术包括关键词引擎、规则引擎、语义分类引擎,发现输入内容中存在安全与合规风险包括:提问内容违规、敏感数据泄露、隐私数据违规、提示词注入攻击等。对发现的潜在风险根据预设的处置策略进行代答、告警等处置动作。模型输出过滤模型输出过滤 对模型生成的内容进行输出合规与安全检查,确保模型生成的内容符合组织内外部的合规与安全要求。基于安全策略对发现风险的内容进行事件告警、内容改写等处置动作。体验与业务连续体验与业务连续 35/47 通过优化引擎检测技术及组合设计多种检测与处置的协同模式适应对用户体验的要求;通过安全能力的集群化部署配合负载均衡设备进行大量请求负载的动态处理。核心安全能力核心安全能力 组件化分离架构组件化分离架构 通过 AI 鉴定平台、安全代理网关(SWG)、监测审计平台三个组件实现,输入输出全链路防护。组件架构为性能扩展、环境部署、应用集成提供了极大的便利性。高效的检测引擎高效的检测引擎 采用“多引擎协同 动态检测”技术:内置多个风险鉴定引擎。首创分层拦截架构,实现“字符级过滤攻击模板识别意图分析”三级防护。可以有效检测针对大模型的新型攻击。自研的安全对抗防御引擎:基于 transformer 的预训练检测引擎,可实时拦截 70 类攻击手法(例如:提示词注入、模型对抗攻击);流式风险评估:支持上下文感知机制,实现流式 Token 实时风险评分,实时拦截恶意 Prompt、实时中断有害内容输出,避免有害信息扩散。合规性检测:内置 TC260生成式人工智能服务管理暂行办法合规检测能力,覆盖数据隐私、法律合规等主要风险场景;敏感数据检测算法:运用先进的敏感数据检测技术,对大模型的输入数据进行实时扫描和分析,能够准确识别并拦截包含企业核心商业机密、个人隐私信息等敏感数据的投喂行为。全面的兼容性全面的兼容性 与主流的大模型应用和技术架构具有良好的兼容性,可无缝集成到企业现有的 IT 环境中,降低企业的部署成本和复杂度,快速实现对大模型的安全防护升级。主动防御与智能分析主动防御与智能分析 利用 AI 技术的自我学习和进化能力,对大模型的安全风险进行主动预测和分 36/47 析,提前发现潜在的安全威胁并采取相应的防护措施。同时,通过对大量安全数据的挖掘和分析,不断优化和完善安全防护模型,为企业提供更智能、更精准的安全防护服务。安全能力的持续更新安全能力的持续更新 丰富的攻击预训练样本及红蓝对抗测试验证。持续收集来源红队、自有情报等各方面,基于自然语言规则的数百万条风险样本。组织大规模人工渗透测试,验证系统防御能力。本案例由奇安信提供 37/47 5.45.4 联想携手火山引擎推出可信个人云联想携手火山引擎推出可信个人云案例案例 项目背景简介项目背景简介 2023 年以来,大模型技术快速成熟,特别是 DeepSeek、豆包大模型等国产模型的崛起,推动中国人工智能进入高速发展期。大模型的引入显著提升了三大核心能力:意图理解维度:通过千亿级参数对自然语言的深度解析,使智能终端能精准捕捉用户模糊需求(如多轮对话、隐含语义识别);服务泛化能力:单一模型可同时支撑搜索、内容生成、设备控制等跨场景任务,大幅降低传统 AI 的场景定制开发成本;持续进化特性:基于在线学习的模型迭代机制,使终端服务能动态适应用户行为模式演变。与此同时,这些能力提升也带来了新的安全挑战:模型训练依赖的海量数据包含敏感信息,推理过程的实时交互需求迫使部分计算前移至终端,传统基于边界防护的安全架构已无法满足数据不动模型动的新型范式。行业亟需构建智能动态防御与大模型安全防护双体系并行的新一代安全架构。联想作为 AI PC 领域的先行者,始终将安全视为智能体验的核心基石。2023 年 4月推出的全球首款真正意义上的 AI PC,即以端侧数据隐私保护作为五大核心特征之一;2024年 5月发布的天禧个人超级智能体,进一步通过端-云混合架构,以用户数据在端、云之间传输和处理过程中的绝对安全为目标。作为国内 PC 领域首个可信个人云方案,联想个人云基于火山引擎 Jeddak AICC 平台打造,旨在构建严密可信的云上计算环境,全面保障大模型推理、RAG 检索增强生成、AI Agent 等核心能力的数据安全,并以更强的开放性与软硬适配能力,支撑多样化的企业部署场景。38/47 大模型业务系统安全保护需求大模型业务系统安全保护需求 随着端云协同成为智能终端发展的主流方向,大模型服务正从传统的云端集中式部署向终端本地化预装演进。这一趋势在提升 AI 体验的同时,也对安全与性能提出了更高要求:安全需安全需求:端云协同下的数据隐私保护求:端云协同下的数据隐私保护 在智能办公场景下,用户依赖大语言模型(LLM)完成文档智能总结、交互式问答等高阶任务,但云端模型处理需频繁上传文档数据,存在泄露敏感信息的风险。例如,企业会议纪要、个人隐私文件等一旦在传输或云端存储过程中被窃取,将造成严重的安全隐患。因此,联想 AIPC 亟需构建端云协同的可信安全架构,确保数据在本地预处理、加密传输及云端计算的全链路安全,真正实现“数据可用不可见”。性能需求:安全防护不影响流畅体验性能需求:安全防护不影响流畅体验 作为办公、学习及娱乐的核心设备,PC 需在 AI 文档处理、语音助手、实时搜索等场景下提供毫秒级响应,而传统云端安全校验机制(如数据回传、鉴权延迟)可能成为性能瓶颈。联想需优化端侧 AI 算力调度,结合轻量化模型本地推理,在保障安全的同时,提升 AI 助手的交互流畅度,从而增强用户粘性,巩固联想AI PC 的市场竞争力。整体解决方案整体解决方案 联想个人云以火山引擎 AICC 方案为基础,充分发挥其全链路 100%加密保障、可自证清白的透明服务以及良好架构实现的能效平衡等优势,构建严密可信的云上计算环境,提供更强的开放性、适应性,构建 AIPC 应用坚实、可信的算力底座,全面保障大模型推理、RAG 检索增强生成、AI Agent 等核心能力的数据安全。39/47 基于个人云安全方案,联想在知识库构建等典型应用中,已实现从内容创建、密态存储到加密检索与解密输出的全流程端到端隐私数据链路流程闭环。用户无需改变操作习惯,即可获得快速响应、可信输出的智能反馈,实现“安全无感”的日常体验,让 AI 服务真正成为可感知、可信赖、可持续的终端能力。除全链路加密等核心安全能力以外,该方案在设备兼容性方面也展现出高度适配性:不仅支持 PC 场景,也面向 ARM 架构进行了深度优化,覆盖手机、平板等多形态终端,并通过在私密云中集成 NVIDIA NVLink 与 NVSwitch 等高带宽互联技术,实现跨设备的 AI 能力流转与数据安全统一调度。核心安全能力核心安全能力 40/47 火山引擎 AICC 机密计算平台基于 TEE(可信执行环境)等前沿机密计算技术,为企业构建云端大模型的“安全计算空间”,从根源上消除数据在云端处理时的泄露风险,让企业真正“敢上云、敢用云”。核心功能包括:芯片级硬件隔离方案:在 AICC 环境中可对隐私数据进行计算和处理,全程外界无法查看原始数据内容,确保敏感信息不泄露。全链路密文流转:数据上云传输和计算过程中,始终以加密形式存在,确保数据在不可信环境中的安全性和隐私性。数据即用即销毁:计算完成后自动彻底删除原始数据及中间结果,不留存副本,杜绝数据在计算过程中留存的风险。安全可信可证明:可信证明服务确保计算环境、过程及结果的可信性与透明度。本案例由火山引擎提供 41/47 5.55.5 央企大模型综合治理案例央企大模型综合治理案例 项目背景简介项目背景简介 某央企作为电力能源行业的领军企业,业务覆盖煤炭开采、电力生产、油气输送、新能源开发等全产业链环节,其核心业务系统承担着能源生产调度、设备运维管理、客户能源供应服务及安全生产监管等关键职能。2025 年以来,该企业全面拥抱大模型,围绕集团战略规划、市场营销、工程建设、生产运维、安全环保和智慧应用等领域,构建了上百类智慧模型和智能体应用,促进整个集团数智化和智能化建设,实现核心业务能力的智能和效率。整体解决方案整体解决方案 针对大模型安全风险整体情况,安泉数智联合企业共同围绕大模型训练、部署和运行三个阶段,总结出了十个方面的问题,并针对提出全生命周期的完整解决方案。大模型资产台账系统为模型资产和训练数据提供一站式档案管理,为应用上架和管理提供全维度数据。人工智能模型评测平台通过自动化问答机制,评估目标大模型的输出内容安全性、数据泄露风险等,并提供整改建议。人工智能增强平台(即大模型防火墙)作为一道屏障和代理,抵挡在目标大模型之前,进行问答内容输入输出的管控,防止大模型的幻觉,或者回复恶意信息、被引导信息泄露。42/47 大模型审计与配置系统能给大模型配置合规和运行提供全面风险监测和审计。大模型安全运营系统为模型和智能应用提供多维度、实时安全态势和运营情况,为模型攻击和防御处置提供决策参考。整体架构图如下:核心安全能力核心安全能力 资产管理:摸清家底资产管理:摸清家底 通过构建“全生命周期模型资产库”,实现了从训练、部署到运行的全链路精细化管理。通过模型和智能体台账,对基础大模型、微调模型、衍生智能体行唯一标识与元数据登记(包括版本号、训练数据来源、适用场景、责任人),确保“底数清、权属明”;通过部署模型版本控制与访问权限管理系统,记录每一次修改、分发与部署的操作日志,防止未经授权的篡改或扩散。该体系为企业模型技术的合规应用与知识产权保护提供了坚实基础。风险评测:高效预警风险评测:高效预警 平台以自动化与智能化为核心,覆盖合规性、鲁棒性、对抗性、隐私性等维度,融合自动化测试工具与机器学习算法,自动生成多样化测试用例,覆盖大模型全 43/47 环节潜在风险,智能分析结果以快速定位漏洞,并借助并行处理缩短测评周期。同时构建全生命周期测评闭环,在安全开发阶段提供规范指导与环境扫描,训练阶段实施实时监控与性能评估,应用阶段开展常态化监测与快速响应,持续优化安全策略。风险防护:智能拦截风险防护:智能拦截 以“AI”对抗“AI”为指导思想,训练了 9 类小模型和 2 个安全垂域大模型,能融合实时监测、智能分析与动态拦截技术,具备实时流量分析能力以识别异常行为,集成深度学习模型提升未知威胁识别能力,支持自定义防护策略。通过输入过滤、输出把关、运行防护建立覆盖部署、运行、升级全流程的动态自适应机制,部署阶段进行前置合规检查,运行阶段实时监测并拦截攻击,升级阶段同步更新防护规则,有效筑牢了技术应用的“安全护城河”。配置审计:合规保障配置审计:合规保障 模型配置的合理性直接影响安全策略的执行效果,而配置偏差往往是引发风险的“隐性漏洞”。梳理模型运行的关键配置项(如内容过滤规则的严格等级、API访问白名单范围、日志记录的详细程度),制定模型安全配置基线标准,明确不同业务场景(如面向公众的开放服务、企业内部的专用工具)的推荐配置模板;通过自动化扫描工具定期检查实际配置与基线标准的差异,并结合日志分析验证配置的实际执行效果,为模型配置的“精准合规”提供了制度与技术双重保障。安全运营:持续改进安全运营:持续改进 安全运营是将静态能力转化为主动防御的动态安全体系,通过实时监测、快速响应与持续优化实现安全防护的动态闭环。在监测层,整合模型资产管理、风险评测、防御增强等模块的数据,基于 AI 算法对异常行为进行智能研判,按照风险等级自动推送告警信息至安全运营团队,并通过可视化大屏展示全局风险态势;在处置层,制定标准化应急预,联动多部门协同响应,确保风险事件“发现即处理”;企业模型安全事件的平均响应时间从小时级缩短至分钟级,真正实现了从“被动救火”到“主动护航”的能力跃升。44/47 该案例通过“模型资产管理”夯实基础、“风险评测”把好入口、“防御增强”主动免疫、“配置审计”精准纠偏、“安全运营”持续进化,构建了覆盖大模型与智能体全生命周期的体系化安全核心能力,不仅为企业提供了从技术到管理、从预防到处置的整体防护方案,更通过动态闭环机制推动安全能力与业务发展同频共振,为人工智能技术的可信应用树立了标杆实践。本案例由安泉数智提供 45/47 5.65.6 杭州市数据资源局大模型安全防护案例杭州市数据资源局大模型安全防护案例 项目背景简介项目背景简介 业务系统功能简介业务系统功能简介 杭州市数据资源管理局是杭州市人民政府下属的核心部门,负责全市政务数据的统一管理、开放共享和应用推广。2024 年,随着杭州“市政大模型”项目的落地,数据局承担了统一部署与对外服务的职责,政务系统内的大模型应用(包括政务咨询、智能客服、政务信息检索、政策解读等)均需通过数据局提供的统一接口进行调用。大模型的能力提升大模型的能力提升 大模型的引入显著提升了政务系统的智能化水平:自然语言交互能力增强:市民可通过自然语言与政务服务系统交互,大幅降低了使用门槛。知识覆盖面广:大模型可对政务政策法规、公共服务内容进行快速解答,提高政务信息服务效率。服务自动化程度提升:减少人工客服压力,提升政务服务的响应速度与市民满意度。大模型业务系统安全保护需求大模型业务系统安全保护需求 引入大模型带来的安全风险引入大模型带来的安全风险 政务大模型在应用过程中面临多类安全挑战:输入风险:市民可能无意或恶意输入包含敏感、违规、涉政涉恐或违法不良信息的内容。输出风险:模型可能生成不当言论、虚假信息或不符合政务导向的回答,导致舆情风险。攻击风险:存在越狱提示注入、敏感信息窃取等新型对抗风险。合规需求合规需求 46/47 为确保政务应用的合规性与可靠性,大模型服务需满足以下要求:符合国家生成式人工智能服务管理暂行办法要求。满足网信办等监管部门关于政务服务场景的合规规范。实现对违法不良信息的及时识别与处置,确保政务系统服务过程中的 可控、可靠、安全。整体解决方案整体解决方案 整体思路整体思路 杭州市数据局在政务大模型部署过程中,引入 360 智脑大模型安全护栏作为核心安全防护组件。该系统通过实时检测和安全代答机制,实现对大模型输入与输出全链路的风险管控,形成“前置过滤过程检测结果处置”的闭环安全防护体系。方案框架图(示意)方案框架图(示意)核心安全能力核心安全能力 风风险检测与智能识别险检测与智能识别 基于海量敏感词库与风险检测大模型双引擎,动态更新风险库,覆盖面广,识别准确率达 99%以上。47/47 拒识率低于 0.1%,在保障安全性的同时兼顾可用性。安全代答机制安全代答机制 对高敏感度问题提供 预置安全答案,避免大模型直接生成潜在风险内容。每日支持 900 余条安全代答请求,确保用户体验与服务连续性。高性能与可扩展性高性能与可扩展性 部署规模:单台服务器,3 张 GPU 显卡,支持 40 并发请求。支撑杭州市政务系统的多业务场景应用,满足高并发调用需求。客户收益与系统效果客户收益与系统效果 业务安全性:业务回复安全率达 99.9%,政务服务可信度显著提升。防护效果:日均检测违规不良内容 1000 余条,拒答 100 余条,安全代答 900 余条,日均防护超万次。综合提升:大模型回复安全性提升 30%以上,有效降低舆情与合规风险。本案例由 360 数字安全提供 48/47 1/47
2025-08-29
53页




5星级
证证券研究券研究报报告告本报告仅供华金证券客户中的专业投资者参考本报告仅供华金证券客户中的专业投资者参考请请仔仔细细阅阅读读在在本本报报告告尾部尾部的的重重要要法法律律声声明明AI大模型引爆需求,存储.
2025-08-25
53页




5星级
罗兰贝格:预见2026:中国行业趋势报告(90页).pdf
智源研究院:2026十大AI技术趋势报告(34页).pdf
三个皮匠报告:2025银发经济生态:中国与全球实践白皮书(150页).pdf
中国互联网协会:智能体应用发展报告(2025)(124页).pdf
三个皮匠报告:2025中国商业航天市场洞察报告-中国商业航天新格局全景洞察(25页).pdf
国声智库:全球AI创造力发展报告2025(77页).pdf
三个皮匠报告:2025中国情绪消费市场洞察报告(24页).pdf
中国电子技术标准化研究院:2025知识图谱与大模型融合实践案例集(354页).pdf
艺恩:2026“情绪疗愈”消费市场趋势盘点报告(31页).pdf
三个皮匠报告:2025中国固态电池市场洞察报告-产业爆发前夕如何重塑锂电新格局(26页).pdf