1、2 0 2 3 年深度行业分析研究报告多模态成为共识,3D将是下一个重点突破方向AI+3D:前景广阔,仍面临诸多技术挑战当前海外AI+3D探索进展123CONTENTS目录CCONTENTS专 业 领 先 深 度 诚 信专 业 领 先 深 度 诚 信中 泰 证 券 研 究 所中 泰 证 券 研 究 所1多模态成为共识,3D将是下一个重点突破方向5不同模态对应的人工智能技术与应用展望不同模态对应的人工智能技术与应用展望图表:生成式AI达到人类创作者水平的时间资料来源:红杉汇,中泰证券研究所61.1 文生文(文生文(Text to Text)文生文(Text to Text)是AIGC行业最先实现
2、的功能,也是ChatGPT等一系列大模型诞生以来被大家体验最多的功能。目前,文生文模型中被应用较多的是OpenAI的GPT系列大模型。ChatGPT率先支持以更连贯自然的语法对输入的问题进行回答。率先支持以更连贯自然的语法对输入的问题进行回答。GPT系列基于Transformer 架构对序列数据中的长距离依赖进行建模,同时OpenAI使用了来自互联网的大量文本数据,包括书籍、文章和网站,来对GPT模型进行无监督学习训练。目前,GPT系列已被用于广泛的自然语言处理任务,包括语言翻译、文本补全和文本生成。GPT-1:发布于2018年6月,参数量1.17亿;GPT-2:发布于2019年2月,参数量1
3、5亿;GPT-3:发布于2022年5月,参数量1750亿;ChatGPT:发布于2022年11月,参数量15亿,专门为会话任务而设计和训练。图表:ChatGPT中文对话示例资料来源:腾讯新闻,中泰证券研究所图表:ChatGPT英文对话示例资料来源:腾讯新闻,中泰证券研究所71.2 文生代码(文生代码(Text to Code)ChatGPT的出现,不仅让人机对话更为连贯、自然、有条理,且ChatGPT本身即具备丰富的代码知识积累,可根据人类语言提示自动生成代码,也可为用户回答一般编程问题、代码测试与改进、代码翻译等功能。不过,ChatGPT的诞生并不专门针对代码,并且可能无法无缝集成到用户的工
4、作流程中。除ChatGPT外,目前市面上已有很多专业AI工具在文生代码方面具备相当的水平。具有代表性的工具如GitHub Copilot、Codex等。GitHub Copilot:Github与与OpenAI共同开发的共同开发的AI驱动的编程助手。驱动的编程助手。它能够直接在用户的编辑器中提供代码片段或者整个函数的建议,以帮助用户更快地编写和完成代码。这一工具可以被看作是一个自动的代码完成工具,它能理解自然语言,也能理解代码本身的上下文。Copilot 在 GitHub 上可用的公共存储库上接受过训练,能够处理各种编程语言和框架。Codex:OpenAI公司推出的公司推出的 GPT-3 的多
5、个派生模型之一。的多个派生模型之一。它是基于GPT语言模型、使用代码数据进行 Fine-Tune而训练出的专门用于代码生成与文档生成的模型。Codex 能够帮助程序员自动补全代码、直接生成代码、自动补充测试样例,并支持多种编程语言。图表:ChatGPT生成代码示例资料来源:腾讯云开发者社区,中泰证券研究所图表:GitHub Copilot生成代码示例资料来源:少数派,中泰证券研究所81.3 文生图像(文生图像(Text to Image)2022 年前,文生图的模型以生成性对抗网络(GANs)为主。但因为在实践中存在明显不足,甚至还不如用Photoshop 等工具直接创作,无法用于商业化。从2
6、021年OpenAI提出DALL E模型和CLIP(Contrastive Language-lmage Pre-training,对比图文预训练)开始,各大公司开始不断推出新的文生图模型,从生成效果和效率上相对于以前的文生图方法都提升了一大截。特别是2022年8月Stable Diffusion正式面世引领AIGC的行业发展,其作为一个迅速火出圈的AI技术,以极快的速度吸引了大量关注。同时,这也奠定了Diffusion 模型在文本生成图像领域的核心方法地位。图表:AI文生图模型阵营及简史资料来源:中国AIGC 文生图产业白皮书 2023,中泰证券研究所91.3 文生图像(文生图像(Text