1、3D3D 内容生成技术及应用场景探究内容生成技术及应用场景探究中国移动研究院 业务研究所2024 年 11月中移智库 摘要摘要随大语言模型与生成式 AI 浪潮席卷全球,3D 内容生成或将迎来自己的 ChatGPT 时刻。3D 内容生成作为新兴 3D 资产制作手段,为内容创作模式带来了新的变革,极大促进了 3D 数字化内容生产的效率提升,引起业界的广泛关注。本文探讨了 3D 内容生成技术的主流方法及其应用领域,尤其在文生 3D 和图生 3D 方面,业界已取得不少有代表性的进展。预计 3D 内容生成将在游戏、电影、通信等领域有广泛的应用,推动数字内容生态的繁荣发展。一、一、3D3D内容生成简介内容
2、生成简介从最初的基于几何建模的手工创作,到如今的海量数据驱动的AIGC 3D生成,3D内容创作的发展经历了多个阶段:手工手工 3D3D 建模阶段:建模阶段:从 1960 年代起,计算机 3D 图形学的基础理论逐渐确立,研究人员提出了如多边形网格、样条曲线和 2/18中移智库 NURBS 曲面等各种建模技术,并开始利用光栅化和光线追踪算法生成更加逼真的图像。初期 3D 内容的生成依赖于专业人员使用建模软件进行手动创建,早期的 3D 建模方法和工具较为原始,3D 模型的创建主要依靠艺术家和设计师使用专业软件手工建模,工作流程包括几何建模、纹理贴图、光照设置等,整个过程耗时且成本较高。这一时期的 3
3、D 内容生成工作量大、耗时长,对建模人员的技术要求较高。基于扫描与重建阶段:基于扫描与重建阶段:随着计算机硬件和传感器技术的发展,3D 扫描与自动化重建技术逐渐兴起,激光扫描和结构光扫描技术能够获取物体和场景的高精度点云数据,并重建其 3D 模型。这一阶段,3D 扫描与重建被广泛用于文物保护、医疗成像、逆向工程等领域,三维模型的生成效率和精度都得到了提升,不过生成的模型通常还需要后期处理,以优化模型效果和细节。基于基于 AIAI 的智能的智能 3D3D 生成阶段:生成阶段:在深度学习等技术驱动下,3D 3/18中移智库 内容生成进入了新的智能化阶段。生成对抗网络(GAN)、变分自编码器(VAE
4、)等模型能够从大量数据中学习并生成新的 3D 内容,被用于 3D 模型生成、纹理映射和风格迁移等任务。神经辐射场(NeRF)技术的提出,以及大型语言模型(LLM)和扩散模型(DM)的发展,进一步推动了 3D 内容生成的能力,现阶段 3D内容生成模型具备了从文本、图像中生成对应 3D 模型的能力:文生文生 3D3D(Text-to-3DText-to-3D)是指通过输入文字描述来生成对应的 3D 模型。使用自然语言作为与用户交互的方式已经愈发成熟,这种生成方式具有高度的灵活性和创造性,用户可以通过简单的文字描述表达自己的创意和需求,然后由生成式模型生成相应的 3D 模型。文生 3D 中,生成质量
5、、多样性和效率是目前业界关注的关键问题。图生图生 3D3D(Image-to-3DImage-to-3D)是指通过输入二维图像来生成三维模型。这种方法通常利用了深度学习等技术,通过对大 4/18中移智库 量二维图像数据的学习,能够从一张二维图像中推断出物体的三维形状和结构。例如一些应用允许将用户上传的照片转换为 3D 模型,为用户提供更加生动的视觉体验。此外还可以通过布局或线稿引导来生成相应的 3D 模型。例如,在建筑设计中,设计师可以通过提供建筑的平面图和剖面图,由 3D 生成式系统生成建筑的 3D 模型。3D 模型细节还原性、形状和结构推断准确性等是目前业界普遍关注的关键问题。二、二、3D
6、3D内容生成分类内容生成分类按生成内容类别的不同,3D 内容生成可以进一步细化为物体生成、场景生成、人体生成、人脸生成。物体生成:物体生成:物体生成主要聚焦从文本或图像中生成特定类别的 3D 物体模型,通常也是三维环境及场景生成的基础。Text2Shape(2018)是首个尝试利用自然语言描述生成 3D 形状的 工 作,基 于 Conditional Wasserstein GAN。Nvdia 的 5/18中移智库 GET3D(2022)提出了一种可以生成高质量纹理 3D 形状的生成模型,能够生成显式纹理3D 网格。场景生成:场景生成:场景生成的难度比单个物体更大,因为它需要考虑物体之间的空间