基于类脑感知和类脑决策的语音鉴伪方法-冯畅.pdf-三个皮匠报告

1、基于类脑感知和类脑决策的语音鉴伪方法冯畅冯畅北京信息科学与技术国家研究中心语音和语言技术中心（CSLT)清华大学计算机科学与技术系CONTENTSCONTENTS目录目录1研究背景及介绍研究背景及介绍研究基础2研究内容324总结与展望研究背景及介绍智能机器人生成式语音多媒体文件编辑服务应用程序3生成式语音算法：语音合成、语音转换伪造语音恶意模仿伪造语音安全问题语音鉴伪语音鉴伪研究背景及介绍语音鉴伪应用场景防止电信诈骗4司法鉴定身份认证防攻击研究背景及介绍研究现状5特征提取分类器真实类虚假类分数Countermeasures(CMs)对策系统体系分类模型1分数1分类模型N真实类虚假类分数N 融

2、合分数端到端模型真实类虚假类分数研究背景及介绍研究动机6伪造语音的产生算法多样，语音数据多样化。已有的训练方法是完全依赖于训练数据，对未知数据的泛化性不够。已有的纯数据学习的方法是黑盒的，不能解释数据与伪造音检测结果产生之间的关系。新数据层出不穷，但是已有模型对新信息的学习需要重新训练所有数据，成本加大。学习机制应该包含数据和知识双重驱动。CONTENTSCONTENTS目录目录1研究背景及介绍研究基础研究基础2研究内容374总结与展望研究基础8外部影响因子感知大脑决策计算感知感知对同一个感觉器官而言，有多个检测细胞去分别检测信息源中的一种特点；对不同的感觉器官，其检测细胞结构设计均不同。低

3、层次的检测细胞将外部信息转换为人体内的神经电信号传递到大脑中更高层次的区域。大脑工作机制耳蜗基底膜毛细胞视网膜视锥、视杆细胞研究基础9感知感知低层次的检测细胞将外部信息转换为人体内的神经电信号传递到大脑中更高层次的区域。大脑工作机制研究基础10大脑决策计算大脑决策计算层级连接：信息从感觉传到大脑决策神经中枢，具有明显的分层性。每一层信息计算后再向下一级传递。视觉系统信息层级传输至大脑听觉系统信息层级传输至大脑大脑工作机制研究基础11决策多细胞感知目标数据结果感知细胞只捕获信息，然后产生对该信息的刺激响应。决策机制联合考虑多个细胞的感知刺激响应。CONTENTSCONTENTS目录目录1研究背

4、景及介绍研究基础2研究内容研究内容3124总结与展望伪造特点伪造特点真实语音真实语音伪造语音伪造语音采样点变化波动程度线性频谱中低频模糊度相位规律真实语音无统一规则相位根据某种变换产生或为固定值发音帧内峰值离散余弦变换研究内容伪造语音的伪造特点13一条伪造语音，具有一个或多个伪造特点特点涉及范围特点涉及范围意义意义示例示例帧级别采样点以滑动窗口进行分帧后变换为频域、相位域，短时计算发音帧内峰值离散余弦变换、相位重复音素级别与音素发音和音素间过度相关，受音素发音时长的影响音素间隔、单音素发音差异、音素内采样点变化波动程度音节级别中等时长分析中等时长频率能量分布句子级别考虑整条语音数据进行长时计

5、算低频整体模糊度研究内容伪造语音的伪造特点14研究内容感知检测器检测器模拟感觉检测细胞，只对特定信息进行响应15检出部分数据分布数据密度伪造语音真实语音其他方法：最小分类错误-可区分性单个检测器的目标单个检测器输出检测信息值 0,1检测器设计只对确定的检测内容输出检测信息检测元是检测伪造语音检测元是检测伪造语音训练以训练以100%100%的检测准确率作为准则的检测准确率作为准则每个单检测器学习少量数据，设计简单检出部分研究内容感知检测器16 每个感知检测器都只学习一种伪造特性，用最大检测准确（Maximum Detection Precision，简称MDP）作为学习目标，区别于普通

6、二分类系统的最小分类错误（Minimum Classification Error，简称MCE）。根据伪造特性，划分训练数据集子集，在子集上训练检测器数据分布数据密度负样本分布线正样本分布线MCE 线MDP 线研究内容决策联合多个检测器响应17 多棵决策树+OR逻辑运算研究内容实验18 实验数据：ASVSpoof2019 Logic Access(LA)真实语音来自Voice Cloning Toolkit(VCTK)corpus 虚假语音由真实语音通过 A01-A19共19种伪造算法产生数据集数据集虚假语音的产

基于类脑感知和类脑决策的语音鉴伪方法-冯畅.pdf

相关报告