超大规模多模态预训练模型M6实践-林俊旸.pdf

编号:127304 PDF 61页 13.72MB 下载积分:VIP专享
下载报告请您先登录!

超大规模多模态预训练模型M6实践-林俊旸.pdf

1、超大规模多模态预训练达摩院智能计算实验室林俊旸01多模态预训练大模型背景&价值02大规模多模态预训练模型关键技术研发03大模型平台与应用案例04未来发展多模态预训练大模型背景&价值20142015201620172018201920202021w ord2vecTransform erBERTGPTXLNetUNITERT5GPT-3Vi LBERTVi nVLVILT集中式通用大模型的发展模式集中式通用大模型是否是业界新范式?基础技术大模型服务化生态创新型应用 算力、数据 通用能力 内部生态到外部生态 AI+产业商业化落地多模态预训练模型M6多模态预训练模型M6M6通用能力视觉问答M6斑马这

2、是什么动物?M6通用能力图片描述/推荐理由生成M6天然乳胶上密布着无数个细小网状结构的透气孔,24小时不间断呼吸,有效排出床垫内部的湿热和脏空气,还你洁净清爽的睡眠空间。另外,天然橡胶的柔韧力度,完全符合人体工学的设计,贴合曲线,令你畅享云端舒睡之旅。M6通用能力文本摘要M6本报*报道:印尼中央统计局近日发布数据显示,有多达82.85%的印尼企业在新冠肺炎疫情严重冲击下营收减少,最严重的降幅甚至超过80%。数据表明,与疫情暴发前相比,绝大部分中小微企业收入下降,部分大型企业也面临困境。现阶段只有14.6%的印尼企业仍能维持同等收入,仅有2.55%的企业在疫情后营收不降反增。在不同行业中,旅游业

3、受到的影响最大,首当其冲的是住宿和餐饮业,92.47%的企业处于亏损状态。印尼超八成企业营收下滑M6通用能力跨模态检索M6日式表面凹凸的咖啡杯M6通用能力文本控制下的图像生成M6女士高腰短一截衬衫大规模多模态预训练模型关键技术研发M6模型&训练任务M6:Multi-Modality-to-Multi-Modality Multitask Mega-transformer for Unified Pretraining,KDD 2021 M6模型架构:基于自注意力的transformer模块 Patch-based backbone(Resnet50/EfficientNet/VIT/)inst

4、ead of Object-based backbone M6多任务预训练:利用不同的mask策略实现不同模态下的完形填空和语言模型任务的学习,兼容多模态理解和生成。使用1.9TB图像和292GB的文本进行预训练,首个参数规模超100亿大模型在显存上的bottleneck成功训练大模型的重要限制便是有限的显存有效解决显存限制的策略包括:Activation Checkpointing Model Parallelism,Pipeline Parallelism,etc.ZeRO(Zero Redundancy Optimizer)百亿Dense M6模型微软19 ZeRO:Memory Opt

5、imizations Toward Training Trillion Parameter Models稀疏模型千亿MoE模型 稀疏MoE模型+Whale专家并行,128卡完成千亿模型训练 相较于同等参数量的dense模型,能以更少的资源和训练时间换来接近的效果M6:A Chinese Multimodal Pretrainer,arxiv:2103.00823M6千亿参数Scale利用Whale实现Mixture-of-Experts的结构扩展模型规模;采用数据并行+专家并行的混合并行模式;结合Gradient Checkpoint、Optimizer峰值显存优化、通信池化、混合精度、编译优

6、化等技术减少GPU资源需求,提高训练效率;128张A100可以实现1400+samples/sWhale支持M6-100B高效分布式训练M6实验结果-多模态生成多模态生成任务上相比基线效果显著,且大模型效果更突出M6实验结果-少样本学习小样本学习上,观察到大模型比小模型具有较大的优势,且大模型训练越久效果还能持续提升M6实验结果-自然语言理解和生成M6-T:模型分析辅助损失函数对效果影响较小,而top-k路由机制的k值对效果影响很大M6-T:专家分组机制专家分组机制:并行化分组路由,有效提升训练效率保持相同训练效率的情况下,有效提升模型效果M6-T:万亿参数大模型训练实践480 GPU 就实现

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(超大规模多模态预训练模型M6实践-林俊旸.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠