计算机行业GPT系列:具身化多模态PaLM~E-230314(17页).pdf

编号:118311 PDF  DOCX 17页 2.73MB 下载积分:VIP专享
下载报告请您先登录!

计算机行业GPT系列:具身化多模态PaLM~E-230314(17页).pdf

1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 GPT 系列:系列:具身化多模态具身化多模态 PaLM-E 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 袁泽世,袁泽世,PhD SAC No.S0570122080053 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究 2023 年 3 月 14 日中国内地 专题研究专题研究 PaLM-E:具身化的多模态大语言模型:

2、具身化的多模态大语言模型 PaLM-E 是由谷歌于 3 月 6 日提出的最新大语言模型,其特点在于引入具身化和多模态概念。具身化指的是在机器学习中涉及物理实体,对应 PaLM-E指导现实的机器人完成相应任务;多模态指的是 PaLM-E 在模型输入中嵌入了文本、图像、具身数据等信息。PaLM-E 的核心思想在于,通过将多模态信息编码为与语言相似的形式,嵌入已有的 PaLM 模型,实现多模态的联合训练。其中,规模最大的 PaLM-E 参数达 5620 亿,是目前最大的视觉语言模型。从训练结果看,PaLM-E 具有很强的泛化和迁移能力,不仅能完成机器人具身推理任务,还能完成常规的视觉语言任务和通用语

3、言任务。PaLM-E 解决了机器学习的解决了机器学习的 grounding 问题问题 机器学习的 grounding 问题,指的是如何将抽象的符号或概念与真实世界的物体或事件联系起来的问题。例如,让机器学习模型将“苹果”这个词与“具有形状、颜色、味道等属性的水果”相关联。已有的很多模型是基于文本数据训练,没能与真实世界的视觉和物理传感器模态建立良好联系,且多模态输入尚未普及,限制了模型在现实世界中的推理能力。PaLM-E 通过将图像、文字、具身数据联合训练,并引入多模态输入,增强了模型对现实中对象的理解,实现了机器人处理具身推理任务,较好解决了 grounding 问题。编码器是实现多模态输入

4、的关键编码器是实现多模态输入的关键 对应不同类别的多模态,需要分别设计不同类型的编码器进行编码。根据多模态的种类,PaLM-E 涉及的编码器主要包括:1)状态估计向量,实现物体位置、尺寸和颜色等状态信息编码;2)ViT:实现 2D 图像编码;3)对象为中心的表示:实现对视觉输入中各对象的编码;4)OSRT:实现对 3D场景的编码;5)实体引用:实现对难以用自然语言表述的对象的指代。完成编码后,即可注入已有模型进行训练和下游任务执行。PaLM-E 以“在环路”的方式指导以“在环路”的方式指导现实现实机器人完成具身任务机器人完成具身任务 PaLM-E 训练数据集包含数十个子训练集,涉及视觉、语言和

5、具身数据。由于以往的 LLM 在具身研究和相应数据集积累上较少,因此训练集中的具身数据占比仅 8.9%。在实际执行任务时,PaLM-E 以“在环路”的方式,一步一步指导机器人操作,并根据机器人的反馈调节输出指令。在任务与运动规划、桌面环境操作和移动操作等具身任务中,PaLM-E 能在部分仿真任务上取得优于 SOTA 的结果,并成功指导现实中机器人完成长期任务。PaLM-E 同样在同样在视觉视觉/语言任务上取得较好效果语言任务上取得较好效果 虽然完成机器人具身任务是 PaLM-E 模型研究的重点,但是经过文本、图像和具身混合数据集联合训练后,PaLM-E 同时获得了良好的通用视觉语言任务处理能力

6、,甚至在某些测试集中取得了优于微调模型的结果。但是,在自然语言生成等通用语言任务上,多模态训练使得小参数规模的 PaLM-E 存在灾难性遗忘问题,PaLM-E-12B 相比其原版 PaLM-8B 的自然语言生成性能下降 87.3%。不过,可以通过增加模型参数量实现性能改善。当模型参数增大到 PaLM-E-562B 时,性能仅下降 3.9%。风险提示:宏观经济波动,技术进步不及预期。本报告内容均基于客观信息整理,不构成投资建议。(24)(14)(3)818Mar-22Jul-22Nov-22Mar-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(计算机行业GPT系列:具身化多模态PaLM~E-230314(17页).pdf)为本站 (securities) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠