1、2023 年深度行业分析研究报告 行业研究报告 慧博智能投研 目录 目录 一、多模态?AI?综述.1 二、市场现状.5 三、研究方向.12 四、技术能力.15 五、产业框架.20 六、市场应用.21 七、市场机遇.24 八、相关公司.26 九、产业前景.31 一、多模态一、多模态 AI 综述综述1、AI 模型:必将从单模态走向多模态,实现复杂场景下的智能决策模型:必将从单模态走向多模态,实现复杂场景下的智能决策 2、多模态或成为多模态或成为 AI 大模型主流大模型主流 多模态模型是指将不同类型的数据(例如图像、文字、视频、语音等)结合起来进行分析处理的模型多模态模型是指将不同类型的数据(例如图
2、像、文字、视频、语音等)结合起来进行分析处理的模型。其通过不同数据类型的相互关联和结合,可以大幅提高模型的准确性和鲁棒性,应用场景进一步拓展。其次,多模态更接近人类学习的模式,在物理世界中,人类认知一个事物并不是通过单一模态,例如认知一只宠物,可以从视觉(宠物形貌)、听觉(宠物叫声)、嗅觉(宠物体味)、触觉(宠物毛发、宠物体温等)等多模态全面立体认知,是未来人工智能的发展方向。多模态向通用人工智能(多模态向通用人工智能(AGI)迈前一步)迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,有望成为人类智能助手,推动 AI 迈向 AGI:多模态更符合人类接收、处
3、理和表达信息的方式。人类能够感知多元信息,每一类信息均为一种模态,这些信息往往是相互关联的。多模态信息使得大模型更为智能。多模态与用户交互方式更便捷,得益于多模态输入的支持,用户可以以更灵活的方式与智能助手进行交互和交流。多模态提升任务解决能力。目前,多模态大模型已成为大模型发展前沿方向目前,多模态大模型已成为大模型发展前沿方向。2022 年及之前,大模型处于单模态预训练大模型阶段,主要探索文本模式的输入输出。2017 年,Transformer 模型提出,奠定了当前大模型的主流算法结构;2018 年,基于 Transformer 架构训练的 BERT 模型问世,参数规模首次突破 3 亿;随后
4、 GPT 系列模型推出,2022 年底至今 ChatGPT 引爆全球大模型创新热潮。步入 2023 年,大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务,更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘,精细化捕捉不同模态信息的关联。例如,2023 年 9 月,OpenAI推出最新多模态大模型 GPT-4V,增强了视觉提示功能,在处理任意交错的多模态方面表现突出。VY3U1XEUOZBVSU9PbP8OoMqQpNnRkPrRpMfQpPqMaQnMtQNZoPrQMYtRyQ 3、多模态是实现通用人工智能的必经之路多模态是实现通用人工智能的必经之路
5、 按照处理的数据类型数量划分,按照处理的数据类型数量划分,AI 模型可以划分为两类:模型可以划分为两类:单模态:只处理 1 种类型数据,如文本等;多模态:处理 2 种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。多模态是实现通用人工智能的必经之路多模态是实现通用人工智能的必经之路。相比单模态,多模态大模型在输入输出端的优势明显:输入端输入端:提升模型能力:高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升通用大模型能力;提高用户体验:推理侧更低的使用门槛和更少的信息损耗。输出端输出端:更实用。可直接生成综合结果,省去多个模型的使用和后期整
6、合;更符合真实世界生产生活需要,从而实现更大商业价值。4、多模态多模态 AI 以融合为核心,基于以融合为核心,基于 5 大技术环节实现复杂问题解决大技术环节实现复杂问题解决 5、多模态模型厚积薄发,性能实现飞跃多模态模型厚积薄发,性能实现飞跃 多模态模型历经多个发展阶段,模型复杂度和性能持续提升多模态模型历经多个发展阶段,模型复杂度和性能持续提升。多模态模型的发展经历了五个关键阶段,分别是行为、计算、交互、深度学习和大模型时代。这一发展历程始于最初对行为理论和科学研究的探索,如今正逐步转向多模态技术在产业领域的实际应用。在这一过程中,半导体技术和计算机科学的迅猛发展扮演了重要的推动角色。多模态