1、1英特尔中国AI 应用案例集锦#全栈算力 加速行业 AI 落地2英特尔中国 AI 实战资源库英特尔中国制造与能源行业AI 实战手册英特尔中国物流与交通行业AI 实战手册英特尔中国金融行业AI 实战手册英特尔中国 AI 应用案例集锦英特尔中国医疗健康行业AI 实战手册英特尔中国互联网行业AI 加速实践手册英特尔中国教育行业AI 实战手册英特尔中国最“in”大模型专栏1英特尔中国AI 应用案例集锦#全栈算力 加速行业 AI 落地3Large Language Model(LLM)大语言模型AI Pipeline AI 全流程AI for Science 科学智能Traditional Deep L
2、earning 传统深度学习Privacy Preserving Machine Learning 隐私保护机器学习(PPML)Green Datacenter 绿色数据中心技术篇:英特尔 AI 产品组合英特尔 AI 实战视频课程基于英特尔 架构的 AI 软件工具组合041120235356597379CONTENT目录Large Language Model(LLM)大语言模型4千帆大模型平台利用百度智能云平台中丰富的英特尔 至强 可扩展处理器资源,加速 LLM 模型推理,满足 LLM 模型实际部署需求。基于至强 可扩展处理器不断提升的算力和内存带宽,有效支持 LLM 实现端到端加速;采用第
3、四代/第五代至强 可扩展处理器内置的 AI 加速引擎 英特尔 AMX,最大限度地利用计算资源,显著增加 AI 应用程序的每时钟指令数(IPC);利用大模型推理软件解决方案 xFasterTransformer(xFT),进一步加速 LLM 推理。让更加可及、经济的 AI 算力资源,在千行百业扬“千帆”挑战解决方案大模型推理优化解决方案AI 服务平台2.32倍相较于第三代至强 可扩展处理器,基于第五代至强 可扩展处理器的 Llama-2-7b 模型输出 Token 吞吐提升达175%相较于第三代至强 可扩展处理器,基于第五代至强 可扩展处理器的 Llama-2-7b 模型首 Token 时延降低
4、达利用充足的 CPU 资源,降低 LLM 推理服务 TCO百度智能云千帆大模型平台可支持广泛的英特尔 CPU 选择扫码获取全文英特尔 AMX 可以更高效地实现 AI 加速85 int8 ops/cycle/corewith 2 FMA256 int8 ops/cycle/corewith 2 FMAs2048 int8 ops/cycle/coreMulti-fold MACs in one instructionLLM 推理中大量矩阵及向量矩阵乘法对硬件的较高需求满足行业离线 LLM 应用需求,并支持用户快速部署 LLM解决 30B 等规模的 LLM 使用高端 GPU 成本较高等问题Inte
5、l AVX-512vpmaddubswvpmaddwdvpadddClock cycle 1Clock cycle 2Clock cycle 316-bitconstant16-bitconstant16-bitoutput32-bitacc output32-bitacc output8-bitinput8-bitinputIntel AVX-512(VNNI)Intel AMX8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc output8-bit new instructionvpdpbus
6、d8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new in