2024龙蜥大会英特尔分论坛:xFasterTransformer助力龙蜥加速LLM推理性能- 缪金成.pdf

编号:175472 PDF 23页 5.72MB 下载积分:VIP专享
下载报告请您先登录!

2024龙蜥大会英特尔分论坛:xFasterTransformer助力龙蜥加速LLM推理性能- 缪金成.pdf

1、助力龙蜥加速LLM推理性能xFasterTransformer英特尔数据中心与人工智能事业部高级软件工程师缪金成缪金成就职于英特尔数据中心与人工智能事业部,主要从事深度学习框架及大模型应用在至强处理器上的软件优化工作。英特尔数据中心与人工智能事业部高级软件工程师在 xFasterTransformer 开源社区中,负责新模型引入和低比特量化的开发与优化。第五代英特尔至强处理器介绍0101LLM推理加速框架xFasterTransformer优化策略介绍0202性能介绍及Demo0303第五代英特尔至强处理器介绍更大的三级缓存(LLC)高达 3倍支持CXL 内存带宽扩展英特尔 高级矩阵扩展(In

2、tel AMX)Better AMX Frequencies,with new licensing levels 英特尔 AI 软件Optimizations up-streamed300+DL Models50+optimized ML and Graph ModelsIntel AI Developer Tools高达64核*与第四代英特尔 至强 可扩展处理器相比更高的内存带宽高达 5600 MT/s第五代英特尔 至强 可扩展处理器PyTorch containers https:/ containers https:/ 高级矩阵扩展(Advanced Matrix eXtensions)

3、4thGen and 5thIntel Xeon Scalable ProcessorBuild-in AI Accelerationin Every CoreUp to 8x gen-on-gen compute increaseNew Advanced Matrix ExtensionsIntel AMX英特尔 高级矩阵扩展(AMX)是每个SPR和EMR内核都有的专用硬件模块,有助于加速深度学习任务英特尔高级矩阵扩展(AMX)Advanced Matrix Extensions(AMX)旨在提升深度学习推理和训练性能.TMUL(Tile Matrix Multiply)TMUL(Tile

4、Matrix Multiply)矩阵乘法指令集,TILES上的首批操作数用TILES里面的数据计算TMUL 实现矩阵乘加运算(C=+A*C),使用3个Tile寄存器(T2=+T1*T0)TILESTILES可扩展二维寄存器 8个新寄存器,每个1Kb:T0-T7寄存器支持基本的数据操作 加载/存储,清除,设置为常量,等等.AMX ExtensionsFeature SetDescriptionInstructionsAMX-TILE基本的tile指令7 条指令AMX-INT8INT8数据类型点乘4 条指令AMX-BF16BF16数据类型点乘1 条指令1.251.101.291.291.171.2

5、41.241.421.191.401.441.361.261.361.411.24AI 训练AI实时推理AI批量推理第五代至强处理器(8592+)和第四代至强处理器(8480+)性能对比归一化性能,以8480+为基数,越高越好英特尔 至强 处理器-显著的AI性能提升LLM推理加速框架xFasterTransformer优化策略介绍xFasterTransformer 简介开源项目:https:/ 2.0许可支持多种数据精度(BF16,FP16,INT8,W8A8,INT4,NF4 )支持混合精度计算支持多种大模型:LLAMA/2,ChatGLM/2/3,Qwen,Baichuan/2 等高效的

6、跨节点分布式推理xFasterTransformer 架构优化策略 Attention 优化优化策略 分布式推理优化Distributed inference based on oneCCLOne time synchronization per layer is enough for some models优化策略 Attention分布式推理优化策略 低精度量化和稀疏化性能介绍及Demo性能情况Llma2-7B/ChatGLM1/2-6B on Intel Xeon CPU Max 9468 单颗至强Max处理

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2024龙蜥大会英特尔分论坛:xFasterTransformer助力龙蜥加速LLM推理性能- 缪金成.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠