当前位置:首页 > 报告详情

3. 语音AIGC技术进展音频技术在喜马拉雅的研发和落地应用(卢恒).pdf

上传人: 2*** 编号:144970 2023-10-28 33页 7.96MB

1、RTE声网开发者社区RTERTE2023智能高清第九届实时互联联网大会一10.24-25#page#语音AIGC技术进展音频技术在喜马拉雅的研发和落地应用卢恒喜马拉雅首席科学家#page#T喜马拉雅公司介绍#page#智能高清喜马拉雅是深受用户喜爱的在线音频平台RTE2023以科技赋能文化,通过AI、大数据等新技术,不断创新产品与服务,打造长期可持续价值每一天的精神食粮听书听课听播客用声音分享人类智慧,用声音服务美好生活#page#智能高清为用户提供丰富而多元的内容RTE2023截至202喜马拉雅已累积了包含100+个品类的3.4亿条音频内容底,个人影视亲子成长有声书儿童精品有声剧多元化经典国

2、学文化创新情感生态内容原创IP人文播客历史科幻悬疑#page#内容和技术,广受行业认可荣获政府、媒体、研究机构等颁发的内容、出版、技术、数字经济等各类奖项2023年09月)2021年10月Q喜马拉雅自研的ASR技术在SpeechlO第三方语音识别比赛中蝉联第一名喜马拉雅三体广播剧获2021声音探索者奖2023年07月)2021年10月RRU珠峰实验室,在ASRU2023多通道多方会议转录挑战赛((M2MeT2.0)喜马拉雅获易观之星2021年度卓越数字化企业说话人日志赛道获得第一名2023年07月)白2021年07月MuSen剧场联合清华大学启元实验室获得国际多模态情感识别比赛ACMMM悬疑自

3、制厂牌白夜剧场入选新知榜知识付费2021年中榜十大内容出品机构MuSe第一名,02020年12月2022年07月CMG喜马拉雅获中央广播电视总台主办的中国城市数字经济风云榜“应用方案奖喜马拉雅入选工信部2022年新型信息消费示范项目2021年12月区2020年11月喜马拉雅入选雪球年度金榜2021年度未来焦点独角兽#page#珠峰实验室技术框架业务全景声AIGC数字虚拟人小雅OS放TTSVCASR音效信号处理多模态虚拟人服务层标准化接口、权限管理、开发者管理、日志系统、三方服务、Database、存储管理、算力均衡、模型部署等运维监控、VC信号Sl多模态虚拟人ASR当彩草多情感多风格声音克隆文

4、本转音频语音唤醒AI生成图像2D真人形中文/中英文识别声音质量检测智能降噪离线长音题转写象数字人音量平衡3D虚拟人声纹识别语普评测流时实时识别语音转换智能音效人声分离多角色多语种音频制作/IP定制音频违规分类字音对齐中英文麦克风阵列音频编解码说话人日志多情感语音驱动数据层HiCrowd采购数据数据监控数据BI数据仓库音色矩阵音视频数据主播数据标注团队DataOps#page#智能高清RTE2023大纲生成式语音多角色小说音多模态情感识别与频AIGC技术大模型技术情感内容生成#page#2多角色小说音频AIGC技术#page#1.AIGC音频创作链路AIGC音频内容创作更快、更多元化:降低了音频

5、创作门槛高,创作者群体扩大。试音,选定声配音导演指导根据题材,制作剧本,对轨、后期构确分包装上架录音定风格音演员出角色建、混音AIGC自动多情感多风格语音合成、自动角色识别自动后期自动音色分配情感语音转换物料生产#page#2.文本分析:自动角色识别自动内容切分,角色提取,完成内容结构化处理。对白情感识别对白情感分布原始文本结构化文本内容切分角色属性预测角色名称抽取对白角色信息对白话者识别#page#3.文本分析:自动角色识别I1文本角色根据原始内容自动生成“姑娘?姑娘!萧景结构化文本旁白这样叫蓝木槿的是一名女警察。拆分章节旁白一杯水递了过来。白开水,用玻璃杯盛着,很有镇定人心的效果。区别旁白

6、对白萧景“吓坏了吧?先喝口水吧。识别对话说话人旁白预测对话情感分布女警察的态度很温和。这个女警察的年纪看起来和自己相仿,形象娇弱,让蓝木模觉得不可思议。她问蓝木幢“你是警察吗?为什么没穿警服?旁白女警察微微一笑萧景“我们刑警通常是不穿警服的。这是我的证件,你相信了吧?旁白蓝木横一,随便看了一下证件,啥也没看清,只是紧紧地握着水杯旁白女警察旁边是个年轻帅气、皮肤勘黑的男警察,手里已经摆好了记笔录的架式。他对蓝木横说洛波“姑娘,她是萧景,我是洛波,我们俩暂时负责这个案子。你先喝口水,然后我们聊聊好吗?旁白蓝木槿喝了白开水,感觉身体里的寒意一点一丝地抽离,神智也清醒了许多,就讲了刚才发生的一切。#p

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
喜马拉雅公司是一家深受用户喜爱的在线音频平台,以科技赋能文化,通过AI、大数据等新技术不断创新产品与服务,打造长期可持续价值。截至2021年年底,喜马拉雅已累积了包含100+个品类的3.4亿条音频内容。其技术广受行业认可,荣获多个奖项。 喜马拉雅在音频内容创作方面取得了创新,引入了AI技术,实现了音频内容的快速、多元创作,降低了创作门槛,使创作者群体扩大。例如,运用Prompt的思想和Character Symbolization技术,提出了小说多说话人框架,提高了小说音频内容的创作效率。 此外,喜马拉雅还进行了多模态情感识别与情感内容生成技术的研究,引入了跨模态特征表征/预训练方法,通过对比学习,学习跨文本和语音数据的统一特征表征。这使得语音文本情感特征提取系统在情感识别任务上取得了显著效果。 喜马拉雅还研发了VEC-TOK SPEECH语音生成式大模型,采用了离散化的token和连续的speech vector来表征语音中的语义、风格等信息,应用了预训练大模型WavLM/Hubert来提取离散化的语音表征,并采用BPE编码来进一步编码离散化的语音特征。该模型在语音生成方面具有较大潜力。 总之,喜马拉雅公司在音频内容创作、多模态情感识别和语音生成式大模型等方面取得了重要成果,为用户提供丰富而多元的内容,同时推动了音频行业的技术创新。
"喜马拉雅如何利用AI技术提升用户体验?" "喜马拉雅的语音生成技术有哪些创新之处?" "喜马拉雅如何通过技术手段实现情感内容的精准捕捉和表达?"
客服
商务合作
小程序
服务号
折叠