当前位置:首页 > 报告详情

2024龙蜥大会中兴通讯分论坛:Arm 生态助力大模型时代AI可持续发展-李天羽.pdf

上传人: 张** 编号:175493 2024-09-11 15页 2.86MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了在AI大模型时代,如何通过Arm生态助力实现AI的可持续发展。首先,AI工作负载大致分为训练和推理两部分,其中推理占据了约80-85%的工作负载。其次,AI软件栈的进化需要考虑到总拥有成本(TCO)和能效比。在硬件方面,GPU虽然计算能力强,但成本高,且对推理负载的性能提升有限,而CPU则具有更好的可扩展性和成本效益。 Arm在Neoverse和Cortex-A家族中进行了架构改进,以提高CPU上的ML性能。例如,Armv9-A SVE2增加了向量计算,Armv8.6-A BFDOT和Armv8.4-A SDOT等指令优化了矩阵乘法。此外,量化技术如FP16、FP8、INT8和INT4也被广泛应用于推理任务中,以降低内存和计算开销。 文章还介绍了LLaMa3 Qwen和Baichuan Phi3等小型专用LLM模型,这些模型通常为开源,擅长处理特定任务和数据集,易于调整和优化。与此同时,大型LLM模型如GPT4和ERNIE等则主要面向特定企业,虽然性能更优,但隐私和安全性可能成为挑战。 最后,文章以LLaMa-3 8B模型为例,展示了在AliCloud Yitian 16xlarge实例上,借助于MMLA优化,实现了高达3倍的性能提升,显著提高了生成式AI的吞吐量和响应速度。这些成果表明,Arm技术在支持大模型时代的AI可持续发展方面发挥着重要作用。
"AI大模型时代的挑战与机遇" "如何优化矩阵计算内核提高AI性能?" "量化技术在AI模型推理中的应用"
客服
商务合作
小程序
服务号
折叠