1、大模型语音对话时代的TTS评测实践牛广硕牛广硕蚂蚁金服硕士毕业于西安交通大学,研究方向为振动信号处理。先后就职于大疆创新、快手科技有限公司,具有丰富音频质量评测经验。2023年加入蚂蚁金服,从事多媒体评测工作,研究方向包括ASR/TTS/3A算法评测,AI音质检测,音频主客观评价等。目录01CONTENTS0203背景介绍评测实践AI赋能TTS评测04未来展望01背景介绍TTS 技术概述TTS(Text-to-Speech,文本到语音)技术,即计算机系统将文本(如文字,数字,数学符号等)转换为听起来如同人类口语的语音。文本预处理规范化错误矫正文本分析语义理解音素转换声学模型声学特征预测声学参数
2、生成文本语音声码器音频合成TTS:让文字通过你的耳朵说话将书籍和文章转换为音频,让用户随时随地享受阅读。智能语助通过TTS技术与用户进行自然对话。导航系统通过TTS提供清晰、准确的驾驶指示。大模型:重塑 TTS 技术 文本预处理:Transformer架构提升对复杂文本结构和语意的理解,确保精确的语言预测。文本分析:大模型通过学习大量语料库,提高音素和韵律的映射质量,丰富TTS的表达能力。声学模型:模型细致学习声音特性,捕获情感和风格,创造自然流畅的语音输出。声码器:大模型的精度和处理能力允许TTS系统以更细腻的粒度(如音高、节奏和强度等)控制音频的产出。自然度:更拟人个性化:私人订制情感表达
3、:沉浸体验跨语种:无缝沟通02评测实践传统TTS 评测局限性传统方案指标局限TTS评测方案主观质量:整体 MOS客观质量:ASR 识别率整体MOS指标,概括性强但精度不足,细分层面的问题,无法提供具体指向性的反馈ASR识别率,只能量化语音可懂度,对自然度、流畅性和情感表达等听觉体验,无能为力音频评测方案音频参数:声道、采样率、码率、频响、信噪比、失真语音质量:PESQ、STOI、POLQA音频参数,关键于评估已录音频和通信质量语音质量评估,关注的是自然界的声音在传输、转码、算法处理后的信号保真度面向未来的 TTS 技术评估,必须跳出传统评测的框架,采用更加全面、深入的评估标准和方法,这样才能真
4、正满足用户对高质量合成语音的需求,并推动TTS 技术向前发展。大模型时代的 TTS 评测新思路自然度:更拟人个性化:私人订制情感表达:沉浸体验跨语种:无缝沟通TTS变革更细致地评估自然度:1.语调、语速、停顿等韵律指标,2.与真实人类对话的相似度评估模拟人类情感表达:1.欢乐、悲伤、愤怒、惊讶、安慰、后悔、同情.量化个性化需求满足能力:1.如特定声音特征2.口音3.习惯用语评估多语言转换能力:1.流畅性、准确性及自然感2.语言间的特殊表达TTS 评测流程指标制定 精细化定义评估指标,确保评测全面覆盖大模型驱动的TTS系统的各项核心性能指标语料生成 定制化语料,确保贴合制定的评测指标;200余条
5、语料,50000+字符,确保全面性语音生成 自研多个模型TTS合成结果生成;竞对多发音人TTS合成结果生成指标打分 使用专门的评分平台,收集来自专家、大众评估团队的主观打分评价;自动化客观指标计算结果分析 综合客观数据和主观反馈,对TTS系统的性能进行深入的分析,并提出优化建议指标制定:细化 TTS 性能评估(1)客观评价指标含义评价标准ASR 识别率ASR系统正确识别合成语音中的文字或词汇的比率字错率(WER)、句错率(SER)有效频宽信号包含的最低和最高频率成分之间的频率范围20Hz到16kHz内有效频宽越高越好指标制定:细化 TTS 性能评估(2)主观评价指标含义评价标准一级指标二级指标
6、发音准确性多音字汉字根据上下文会有不同的读音1分-很差:发音大量不准确,用户难以理解语义。2分-差:发音经常出错,能捕捉到基本意思,但影响理解。3分-一般:发音错误时有发生,听众能大致理解句子的意思,但细节理解可能会有误。4分-良好:发音基本准确,仅偶有小错误,但不影响理解。5分-优秀:发音完全正确,高效正确地处理所有多音字、中英混合内容、数字和特殊符号,与人类发音习惯完全一致。中英混合、符号文本中同时包含中文和英文单词/缩写/特殊符号数字看TTS系统是否能根据上下文准确地表述数字(包括阿拉伯数字、序数、小数、科学计数法、百分比等)指标制定:细化 TTS 性能评估(3)主观评价指标含义评价标准