1、行业评级:看好2023年4月5日多模态AI研究框架 人工智能行业专题报告证券研究报告分析师刘雯蜀邮箱证书编号s1230523020002摘要0121、AI模型从单模态向多模态演进,未来有望实现认知智能:AI模型走向多模态必然性的三大因素:跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。2、多模态 AI 融合多种数据,可大幅延伸应用场景:多模态 AI 能够实现基于文本、语音、图片、视频等多模态数据的综合处理应用,完成跨模态领域任务。3、多模态 AI 五大技术环节,模态融合为核心:多模态 AI 以模态融合为核心技术环节,围绕“表征-翻译-对齐-融合-联合学习”五大技术环节,解决实际场景下复杂
2、问题的多模态解任务。4、国内外多模态 AI 布局进展,关注 OpenAI 及谷歌动向:国内外大厂及科研院所自2021年起相继推出跨模态 AI 模型,目前OpenAI 及谷歌(DeepMind)布局较完善,未来有望基于各任务模型,构建多模态AI生态。5、重点关注标的:(1)基础层:大模型:三六零,科大讯飞;数据服务:海天瑞声 (2)应用层:AI+工具:金山办公;AI+建筑:广联达;AI+法律:通达海;AI+医疗:创业慧康,久远银海;AI+教育:科大讯飞;AI+网安:安恒信息、奇安信;AI+金融:同花顺;AI+交通:佳都科技;AI+政务:拓尔思;AI+遥感:航天宏图;风险提示:1、AI技术发展不及
3、预期;2、版权、伦理和监管风险;AI模型:必将从单模态走向多模态,实现复杂场景下的智能决策013单模态多模态跨模态多模态神经搜索Jina AI光谱AI实现模态融合多模态AI数据:将多模态数据融合处理模型:更多融合人类脑神经机制,提升性能功能:实现智能决策、跨模态任务、运动控制、智能预测反馈来源:AWS,IBM Research,浙商证券研究所01多模态AI实现跨模态任务,应用场景丰富4Whisper 语音-文本架构应用领域融合内容联合架构视频分类语音、视频、文本事件检测语音、视频、文本情绪分析语音、视频、文本视觉问答图像、文本情感分析语音、视频、文本语音识别语音、视频协同架构跨模态搜索图像、文
4、本图像标注图像、文本跨模态嵌入图像、视频、文本转移学习图像、文本编解码器架构图像标注图像、文本视频解码视频、文本图像合成图像、文本多模态AI模型应用场景(按架构分)CLIP 文本-图像Make-a-Video 文本-视频模态融合来源:Github,面向深度学习的多模态融合技术研究综述,Make-a-video:text-to-video generation without text-video data,浙商证券研究所多模态AI以融合为核心,基于5大技术环节实现复杂问题解决015淘宝多模态特征融合方案表征(Representation)翻译(Translation)对齐(Alignment)
5、融合(Fusion)联合学习(Co-learning)目标实现模态互补剔除模态冗余模态映射模态子成分关联分析信息整合模态知识填充技术路线联合表示Example-based无监督方法早期/晚期融合Parrallel learning协同表示Decoder-Encoder监督方法多核学习Zero Shot图像模型方法图像模型Hybrid神经网络方法神经网络多模态AI的5大核心技术环节基于多模态融合的AI疾病诊断来源:阿里云,AIDD Pro,Multimodal Machine Learning:A Survey and Taxonomy,浙商证券研究所国内外大厂持续布局跨文本、图像、音视频等模态
6、的AI模型026TransformerGPT-3InstructGPT/GPT-3.5ChatGPT时间提出者模型名称功能意义2021年1月OpenAICLIP-DALLE以文搜图,按照文字描述生成对应图片CLIP的zero-shot learning技术在各种数据集上的表现都很好2021年5月GoogleMUM多功能统一模型可从 75 种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序2021年9月百度DocVQA跨模态文档理解登顶DocVQA榜首2021年11月NVIDAGauGAN2根据输入的文本/简笔画生成对应逼真的风景图、输入图像并编辑部分内容可用文字和图画混合创造逼真的艺术2