1、 1/32 2024 年年 3 月月 1 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 多模态多模态AI行业深度:行业深度:市场现状、市场现状、产业前景、产业前景、产业框架及相关公司深度梳理产业框架及相关公司深度梳理 当前,多模态 AI 大模型有望掀起新一轮产业革命。追踪当前行业发展,大模型多模态发展进一步深化,有望成为 AI 大模型主流。继之前文生图能力快速嵌入各个大模型之后,文生视频为大模型多模态应用的下一重要方向。近期多家厂商相继发布相关产品或更新,大幅提升文生视频效果,实现更高清晰度、更高流畅度、视频任意修改等功能。可以说,多模态是实现通用人工智能的必经之路,
2、必将成为大模型发展的前沿方向。以下我们就以多模态 AI 为视角,深度追踪这一市场热点。从相关概念、市场现状出发,对市场研究方向、技术能力进行梳理。同时,将对多模态 AI 的产业框架、市场应用、相关企业进行分析,并对多模态 AI 发展下的市场机遇、产业前景进行分析,希望对大家了解当下行业现状及发展趋势有所启发。目录目录 一、多模态 AI 综述.1 二、市场现状.5 三、研究方向.12 四、技术能力.15 五、产业框架.20 六、市场应用.21 七、市场机遇.24 八、相关公司.26 九、产业前景.31 十、参考研报.32 一、多模态一、多模态 AI 综述综述 1、AI 模型:必将从单模态走向多模
3、态,实现复杂场景下的智能决策模型:必将从单模态走向多模态,实现复杂场景下的智能决策 2/32 2024 年年 3 月月 1 日日 行业行业|深度深度|研究报告研究报告 2、多模态或成为多模态或成为 AI 大模型主流大模型主流 多模态模型是指将不同类型的数据(例如图像、文字、视频、语音等)结合起来进行分析处理的模型多模态模型是指将不同类型的数据(例如图像、文字、视频、语音等)结合起来进行分析处理的模型。其通过不同数据类型的相互关联和结合,可以大幅提高模型的准确性和鲁棒性,应用场景进一步拓展。其次,多模态更接近人类学习的模式,在物理世界中,人类认知一个事物并不是通过单一模态,例如认知一只宠物,可以
4、从视觉(宠物形貌)、听觉(宠物叫声)、嗅觉(宠物体味)、触觉(宠物毛发、宠物体温等)等多模态全面立体认知,是未来人工智能的发展方向。多模态向通用人工智能(多模态向通用人工智能(AGI)迈前一步)迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,有望成为人类智能助手,推动 AI 迈向 AGI:多模态更符合人类接收、处理和表达信息的方式。人类能够感知多元信息,每一类信息均为一种模态,这些信息往往是相互关联的。多模态信息使得大模型更为智能。多模态与用户交互方式更便捷,得益于多模态输入的支持,用户可以以更灵活的方式与智能助手进行交互和交流。多模态提升任务解决能力。目
5、前,多模态大模型已成为大模型发展前沿方向目前,多模态大模型已成为大模型发展前沿方向。2022 年及之前,大模型处于单模态预训练大模型阶段,主要探索文本模式的输入输出。2017 年,Transformer 模型提出,奠定了当前大模型的主流算法结构;2018 年,基于 Transformer 架构训练的 BERT 模型问世,参数规模首次突破 3 亿;随后 GPT 系列模型推出,2022 年底至今 ChatGPT 引爆全球大模型创新热潮。步入 2023 年,大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务,更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘,
6、精细化捕捉不同模态信息的关联。例如,2023 年 9 月,OpenAI推出最新多模态大模型 GPT-4V,增强了视觉提示功能,在处理任意交错的多模态方面表现突出。VY3U1XEUOZBVSU9PbP8OoMqQpNnRkPrRpMfQpPqMaQnMtQNZoPrQMYtRyQ 3/32 2024 年年 3 月月 1 日日 行业行业|深度深度|研究报告研究报告 3、多模态是实现通用人工智能的必经之路多模态是实现通用人工智能的必经之路 按照处理的数据类型数量划分,按照处理的数据类型数量划分,AI 模型可以划分为两类:模型可以划分为两类:单模态:只处理 1 种类型数据,如文本等;多模态:处理 2