1、 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。使用Amazon Amazon SageMakerSageMaker 将基础模型的推理能力扩展到数百个模型上Dhawal PatelDhawal Patel机器学习首席架构师亚马逊云科技蓝雨川API 平台负责人零一万物 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。基础模型(FM)(FM)一个模型远远不够!2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。托管基础模型以大规模运行推理:挑战TransformersTransforme
2、rs 模型很慢!自回归解码、长输入/输出序列、频繁读写内存内存占用大数千亿模型参数往往会超出单个加速器芯片的内存限制性能调优性能调优需要专门的专业知识、高效的负载均衡及基础设施的管理费用硬件成本高需要机器学习加速器来降低延迟、提高吞吐量;想要充分利用内存和计算资源也会增加工作量工作负载隔离隔离工作负荷和减小影响范围均需要大量工作扩展到数百个基础模型数百个端点的管理、加速器的分配、各模型专用的扩展策略、模型的分组及硬件的使用均会产生费用 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。部署单个基础模型Llama 2 Llama 2 13B13B 2024,A
3、mazon Web Services,Inc.或其附属公司。保留所有权利。部署单个模型单个容器多个容器请求响应流推理管道实时的同步响应无服务器GPUCPU近乎实时的同步响应请求响应离线的批量推理提交完成Amazon SageMaker部署多个模型模型容器基础设施推理芯片在SageMakerSageMaker 上部署基础模型以进行推理 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。使用SageMakerSageMaker 单模型端点来运行基础模型推理LMI 容器机器学习实例1SageMaker 端点响应流请求Llama 2Llama 2LMI 容器机器学习
4、实例1Llama 2Llama 2 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。扩展到多个基础模型毒性端点个人身份信息端点Llama 2端点搜索向量化代码生成文本分类口语多语言图像转换为文本摘要文本转换为图像Model 端点Model 端点Model 端点Model 端点Model 端点Model 端点Model 端点Model 端点Model 端点Model 端点Model 端点Model 端点Model 端点Model 端点运营费用和成本十分高昂!能否将多个模型打包到一个端点?2024,Amazon Web Services,Inc.或其附属公司。
5、保留所有权利。将所有基础模型合并到一个端点图像生成代码生成摘要个人身份信息检测毒性图像审核SageMaker 端点 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。FM1FM2FM2FM3FM3FM2FM2FM2FM2FM2FM3FM3FM3FM3FM3FM3FM3FM3FM3FM3FM2应用 AAMAZON AMAZON SAGEMAKERSAGEMAKERSageMakerSageMaker 推理组件FM1FM1FM1低负载中负载高负载应用 B应用 C 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。可降低成本、改
6、善延迟的全新功能可高效部署数百个模型,推理成本平均降低50%每个模型的自动扩缩策略能够独立扩展或缩减模型为每个模型分配专用的硬件资源智能路由可使延迟平均降低 20%提供与 SageMaker 兼容的容器 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。FM1FM2FM2FM3FM3FM2FM2FM2FM2FM2FM3FM3FM3FM3FM3FM3FM3FM3FM3FM3FM2Application AApplication BApplication CAMAZON AMAZON SAGEMAKERSAGEMAKERSageMakerSageMaker In