1、AI数字人实时互动技术在文旅场景中的创新应用演讲人:张宇凡数字人技术原理数字人的定义以及wav2lip模型的训练过程,和模型所有的优势02前言介绍从2019年开始创办贵州猿创科技到现在从事数字人的研发。01数字人+文旅场景文旅景区的痛点,以及为什么要选择文旅作为第一个业务板块03系统体验与展示展示技术细节,体验文旅数字人的功能情况。0401前言介绍张宇凡2019年创办的贵州猿创科技,属于贵安新区招商引资企业。2020年旗下校园团购平台校团帮获200w风险投资。2022年ChatGPT开源模板市场占有率超过60%,开始组建研发。2023年发布xhadmin多应用SaaS框架,基于框架做了多个爆款
2、应用,比如超级SEO助手、AI论文专业版、AI小说转动漫以及AI老照片转视频等。2024年到现在,大部分精力全部投入到数字人的研发。02数字人技术原理数字人定义与分类数字人可分为非交互型和交互型,非交互型主要用于展示,交互型可与用户实时互动。交互型数字人通过语音识别、自然语言处理等技术实现与用户的双向沟通,应用场景更广泛。01数字人分类首先肯定是拟人化,它需要像个人,其次就是虚拟的形象,最后还要能实时交互。这些还不足以定义一个数字人,最重要的是要智能,要像人一样去思考,能够处理一些工作任务。02数字人定义以前的数字人只能是通过动作捕捉技术去建模,然后来完成一系列的智能交互,现在可以通过音频同步
3、,让数字人更加真实。在加上deepseek的爆火,结合知识库,未来会有无限可能。03发展现状数字人模型研发4.34.54.832.63.23.82.82.83.64.14速度清晰度同步率训练难度图表标题wav2lipmusetalklatensync目前市面上已知的开源模型都无法满足客户的需求,比如wav2lip、Musetalk、LatenSync、Video-retalking等开源模型。开源模型系列我们尝试了几乎所有的原生开源模型训练,效果都不理想,最后基于原生的wav2lip开源模型训练,优化了60%以上的训练算法,最终达到了最理想的效果。训练泛化模型Wav2Lip算法基本原理唇形同步
4、通过深度学习模型,根据音频信号自动生成与之匹配的唇形动作,实现音唇同步。网络结构为了提高唇形生成的真实性,我们对算法进行了优化,采用了更高效的网络结构。音频对齐通过对音频进行预处理、特征提取和归一化等操作,为唇形生成提供高质量的数据输入。实时互动数字人我们自己训练的模型,目前已经趋于稳定,且在市场上也是经过了无数生产验证的,对口型效果逼真度能达到99以上,堪比真人,近期在准备算法备案。基于我们已经训练好的对口型的算法模型,延伸出来实时数字人的需求,我们有了一定的基础之后,做实时互动显得得心应手,目前我们能做到低至1秒的延迟,这是其他厂商无法做到的。成熟的技术方案低延迟互动技术03数字人+文旅场
5、景应用场景0102在景区、博物馆,可以作为讲解员,提供沉浸式的交互体验,如路线规划、景点导览等文旅景区在医院,为患者提供就诊流程、门诊时间等信息,帮助患者快速找到所需科室,提高就医效率医疗系统医疗系统应用场景在教育领域,教学辅助工具,为学生提供更加生动、形象的学习体验,激发学生的学习兴趣教育领域政务服务大厅智能推送服务入口,完成业务咨询、资讯推送、服务引导、事项办理等政务服务政务领域0201公共服务比如在机场展示航班信息,提供航班查询和建议等。金融领域作为数字人员工,提供业务咨询、操作指引等服务,提升服务效率。应用场景选择景区赛道?双龙景区目前是我朋友在管理运营,前几天他来找我,对数字人应用在
6、文旅场景表现出极大的兴趣。01从实际需求出发将已有的数字人模型,改造为流式问答,就可以完成实时互动需求。02已有的技术方案文旅场景需求与痛点传统景区讲解服务单一,缺乏互动性,游客参与度低。旅游旺季人力不足,服务质量难以保障。数字人可以实时互动,接入大模型之后让知识更加广泛,互动更加有趣。文旅景区系统+数字人可以降低景区部分成本,如果结合景区的历史人物IP形象,还会促进景区宣传。局限性新变革数字人实时互动延迟低至1秒,保障流畅交互。对口型效果逼真度99%以上,提升用户沉浸感。低