1、认知智能驱动的多模态虚拟数字人交互关键技术及应用什么是多模态虚拟数字人平台(Digital Human)基于真人特征的多模态虚拟数智人采用真实人类表情与动作捕捉技采用语音识别、语义理解和语音合成技术采用表情、动作匹配技术实现数字人智能化语音交互功能技术平台2 0 2 1 第 四 届 文 化 计 算 大 会.技术实现路径:数字人创造流程面部表情光场采集表情重建与绑定皮肤纹理生成模型优化角色实时化搭建AI智能小脑驱动2 0 2 1 第 四 届 文 化 计 算 大 会.技术实现路径自 研 高 精 度 模 型/纹 理 采 集 系 统自 研 面 部/全 身 动 作 捕 捉 系 统国内首个拥有全流程自研基
2、础设施团队我 们 自 研 了 完 整 的 底 层 基 础 系 统 和 相 关 算 法,实 现 了 全 流 程 的 自 主 可 控,无 惧 技 术 封 锁,构 建 数 据 和 技 术 壁 垒,夯 实 发 展 基 础。E V A.校色原始素材抠像 获取原始素材推荐采用RAW文件 根据前期的色卡进行校色 自动扣下主体人物,大大加快速度。模型清理多视角重建模型重拓扑 建立点云数据,并摆正头像位置及解算区域。整理高模,处理高模的瑕疵。基于标准的模型重拓扑。E V A.通过自研光场采集设备,对用户多种表情进行采集,得到不同光照,不同视角,不同偏振状态的图像数据。可构建个人完整的形象数据集。质量:以“视觉测
3、量”技术为基础构建“数字孪生”2 0 2 1 第 四 届 文 化 计 算 大 会.光场采集 获取原始素材推荐采用RAW文件 156组白色可编程LED灯源(一组三灯),水平/竖直偏振光和无偏光 4+高精度材质捕获相机,36+SFM相机阵列 光源控制器和相机控制器 水平和竖直偏振片,标准色卡LightBall:自主研发人脸光照数据采集系统2 0 2 1 第 四 届 文 化 计 算 大 会.技术实现路径音素音频对齐算法多模态接口文字+语音基于窗口的平滑方法虚拟智人驱动网络表情、动作参数文字音素提取音频特征提取小脑AI文字音素与音频特征文字音素与音频特征对齐算法对齐算法基于窗口输入输出的基于窗口输入输
4、出的平滑方法平滑方法基于时序的基于时序的虚拟智人驱动网络虚拟智人驱动网络2 0 2 1 第 四 届 文 化 计 算 大 会.技术实现路径创新性的大小脑架构,解决数字人语言和表情交互痛点智能驱动云平台小 脑AI标准对话接口终 端 用 户人 工 智 能标 准 云 服 务自 定 义音 素基 于 A I 智 能 音 素 分 割的 表 情 驱 动 算 法语 音文 字个 性 化情 绪 模 型表 情 驱 动 数 据表 情 驱 动数 据 集跨模态接口跨模态接口虚拟智人 终端2 0 2 1 第 四 届 文 化 计 算 大 会.攻关计划:项目进展情况相关技术能力攻关进展技术专利、软著申请进展项目重难点攻关计划组织
5、与机制保障2 0 2 1 第 四 届 文 化 计 算 大 会.自 研 光 台 采 集 系 统自 动 化分 解/绑 定算 法AI自 研 面 捕 系 统自 研 动 捕 系 统 工 业 化 生 产 流 程 自 研 底 层 核 心 装 备 标 准 化 数 据视 频 内 容快 速 影 像 内 容 生 产 平 台实 时 虚 拟 智 人 服 务 平 台小 脑A I业 务 服 务智 能 客 服技术攻关进展完全实现基于真人特征的跨模态虚拟智人技术真实人类表情与动作的捕捉技术语音合成技术和表情、动作相互匹配技术语音识别、语义理解和语音合成等技术,实现智能化语音交互功能2 0 2 1 第 四 届 文 化 计 算 大
6、 会.专软申报进展申报已通过:虚拟智人交互系统V2.01申报进行中:三维全真交互平台2申报进行中:数智人交互平台3三维全真交互平台基于真人特征跨模态虚拟智人技术一种将真实人类各数据提取并存储后通过3D技术进行画面实体化的技术将采集的人类数据和语音技术相结合实现虚拟人类和用户的实时交流2 0 2 1 第 四 届 文 化 计 算 大 会.项目攻关计划突破基于标志点自动配准高 效数字人脸模型重拓扑技术以及面向同拓扑数字人脸的自动绑定生成技术;突破 基于自编码器的骨骼化人脸 UI 控件正反绑定关系迁移技术,实现语义控制器自 动关联;完成数字人管理控制后台系统搭建;完成开发基于超大规模参数对话预训练模型