1、 2024 年深度行业分析研究报告 内容目录 一、什么是交互型多模态大模型?.4 1.1 交互型多模态大模型应具备什么特点?.4 1.2 交互型多模态大模型成本将降至几何?.8 二、交互型多模态大模型进展如何?.10 2.1 海外:OpenAI 与谷歌双巨头抢滩.10 2.2 国内:大模型多处于语音交互阶段,商汤智谱领衔升级视频交互功能.11 三、为什么交互型多模态大模型有望带来应用的爆发?.14 3.1 视觉是获取外部信息最主要的途径,多模态更符合人类感知的方式.14 3.2 应用发展的核心就是人机交互模式的升级.15 四、交互型多模态大模型会带来怎样的应用?.19 4.1 交互型多模态大模
2、型在“数字智能”中的应用.19 4.1.1 教育.19 4.1.2 编程.22 4.1.3 医疗健康.23 4.1.4 办公.25 4.1.5 游戏.26 4.1.6 情感陪伴.28 4.2 交互型多模态大模型在“具身智能”领域应用.29 4.2.1 人形机器人.29 4.2.2 智能座舱.30 4.2.3 智能家居.32 五、交互型多模态大模型未来形态.35 5.1 交互先行,端侧 AI 发展有望加速.35 5.2 交互型多模态大模型商业模式.36 六、相关标的梳理.38 图表目录 图 1:GPT-4o 能听出用户呼吸急促,并将其形象比喻成吸尘器,然后给出建议.4 图 2:用户写字表白,GP
3、T-4o 能快速识别字迹并高兴地感谢用户,输出时语气带着笑意.4 图 3:过去 ChatGPT 实现语音互动的三个步骤.5 图 4:谷歌 Gemini 具有原生多模态特性.5 图 5:Gemini 多模态能力使用案例.5 图 6:Chameleon 的模型结构与训练方法.6 图 7:GPT-4o 响应速度提升.7 图 8:GPT-4o 与人交流时会开一些合理的玩笑,如它会说“我今天要请客了”.7 图 9:Project Astra 记住了曾经“看”到过的眼镜和苹果.8 图 10:OpenAI 大模型的降本历程.9 图 11:GPT-4o mini 在基准测试中表现较好.9 图 12:GPT-4
4、o mini 具有高性价比.9 图 13:GPT-4o 新版本价格相比 3 个月前下降超 40%.10 图 14:GPT-4o 在多语言识别方面与 Whisper-v3 对比.10 8X8XaYcWaVbUdXbZaQcM6MnPoOsQsOjMmMxOfQpPtPaQoOyRNZpNrOMYnMnM 图 15:GPT4o 音频翻译基准测试表现.10 图 16:GPT-4o 发布后 ChatGPT 移动端 APP 的收入高增.11 图 17:谷歌展示 AI 智能体项目 Project Astra.11 图 18:日日新 5.5 核心指标.12 图 19:日日新 5o 识别小狗玩偶.12 图 2
5、0:日日新 5o 分析建筑环境及天气.12 图 21:日日新 5o 识别书籍并提供更多信息.13 图 22:日日新 5o 识别绘制的简笔画表情并分析情绪.13 图 23:用户可以用清言 APP 视频通话功能和 AI 玩“你画我猜”的游戏.13 图 24:清言 APP 视频通话功能可以辅助用户读论文.13 图 25:国内大模型聊天助手语音交互界面.14 图 26:多模态更符合人类与外界交互的方式.15 图 27:人机交互过程.16 图 28:人机交互的变革.17 图 29:人机交互将向最简单的形态发展.18 图 30:现代教育的特征与 AIGC 技术吻合.19 图 31:大模型拓展了 AI 技术
6、在教育领域的应用场景.20 图 32:Duolingo max 功能.20 图 33:GPT-4o 在 Khan Academy 上完成数学题辅导.21 图 34:GPT4o 通过视频完成数学问题辅导.21 图 35:GPT-4o 识别物体并输出西班牙语.21 图 36:GPT4o 模拟面试.21 图 37:AGI 完全体与教育畅想.22 图 38:GPT4o 代码能力演示.23 图 39:远程协作平台 Multi.23 图 40:GPT-4o 与 Be my eyes 结合为盲人提供实时助手.24 图 41:AIGC 贯穿医疗全流程.25 图 42:GPT4o 当会议助手.26 图 43:G