当前位置:首页 > 报告详情

蒋世琰-2D与3D数字人技术解析与创新应用.pdf

上传人: 哆哆 编号:631195 2025-04-19 37页 13.74MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit蒋蒋世世琰琰 声声网网A AI I数数字字人人技技术术负负责责人人现任AI数字人技术负责人,专注于2D与3D数字人的技术研发及创新应用。主导并深度参与了声网数字人项目从算法设计到产品落地的全流程开发,在多个技术领域取得了显著成果。在2D数字人领域,通过语音驱动人物图像的技术突破,实现了自然流畅的口型同步与动态表情生成,极大提升了虚拟形象的表现力

2、与真实感。在3D虚拟数字人方面,构建了一套从音频到表情洗漱的实时映射模型,利用该模型可以精准驱动虚拟Avatar,为实时交互场景提供了高质量的解决方案。此外,在3D写实数字人领域,使用3D Gaussian Splatting技术,成功实现了多视角、高逼真度的虚拟形象生成,进一步推动了数字人在影视、游戏及虚拟现实等领域的应用落地。演演讲讲主主题题:2 2D D与与3 3D D数数字字人人技技术术解解析析与与创创新新应应用用ML-SummitML-Summit2025 全球机器学习技术大会2D 与 3D 数字人技术解析与创新应用蒋世琰ML-SummitML-Summit目录CONTENTS数字人

3、概述技术原理应用展望关于声网ML-SummitML-Summit数字人技术概述01ML-SummitML-Summit数字人分类2D 真人2D 卡通3D 卡通3D 半写实3D 写实ML-SummitML-Summit数字人驱动2d数字人blendshapeimg feature文字blendshape渲染AI合成数字人图像音频TTSaud feature3d数字人ML-SummitML-Summit技术原理02ML-SummitML-Summit面捕驱动3d卡通 avatarAI模型驱动对象驱动源blendshape驱动效果ML-SummitML-Summit声网面捕驱动3d卡通 avatar

4、人脸检测video/cam面捕算法bs移动端实时驱动支持各种头部姿态支持遮挡、反光等复杂场景ML-SummitML-Summit面捕驱动图像驱动对象驱动源驱动结果面捕模型生成模型特征模型表情特征人脸特征ML-SummitML-Summit面捕驱动图像RTX 4090 GPU 12.8ms/frame,512x512Guo J,Zhang D,Liu X,et al.LivePortrait:Efficient Portrait Animation with Stitching and Retargeting ControlJ.arXiv preprint arXiv:2407.03168,20

5、24.ML-SummitML-Summit动捕驱动卡通 avatar驱动源AI模型驱动对象3D landmarkJoint驱动效果ML-SummitML-Summit声网动捕驱动 avatar移动端实时驱动支持各种动作支持遮挡、快速移动等复杂场景ML-SummitML-Summit动捕驱动图像动捕难度高于面捕,肢体变化比面捕复杂主流方案是基于difussion model,需迭代T次,推理速度慢Zhang Y,Gu J,Wang L W,et al.Mimicmotion:High-quality human motion video generation with confidence-aw

6、are pose guidanceJ.arXiv preprint arXiv:2406.19680,2024.ML-SummitML-Summit动捕驱动图像离线处理,耗时较长ML-SummitML-Summit语音驱动卡通 avatarAudio2Blendshape驱动对象驱动源驱动效果ML-SummitML-Summit声网语音驱动 avatar移动端实时驱动支持各类人声,包括性别、方言、语种等支持噪声等复杂场景ML-SummitML-Summit语音驱动图像主流方案是基于difussion model,需

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了声网AI数字人技术负责人蒋世琰及其团队在2D与3D数字人技术研发及创新应用方面的成果。关键点包括:1. 2D数字人领域,实现了自然流畅的口型同步与动态表情生成,提升了虚拟形象的表现力与真实感;2. 3D虚拟数字人方面,构建了一套从音频到表情洗漱的实时映射模型,精准驱动虚拟Avatar,为实时交互场景提供了高质量的解决方案;3. 3D写实数字人领域,使用3D Gaussian Splatting技术,成功实现了多视角、高逼真度的虚拟形象生成;4. 声网拥有50+突破性的自主创新技术,全球发明专利超过50项,市场占有率稳居第一,是全球领先对话式AI与实时音视频云服务的开创者。
"数字人技术如何提升虚拟形象的表现力与真实感?" "声网如何利用实时互动技术推动数字人在各领域的应用落地?" "数字人技术在未来有哪些应用前景和挑战?"
客服
商务合作
小程序
服务号
折叠