1、ZEGOZEGO场景化场景化AIAI降噪降噪技术解析技术解析音频算法处理专家/曾爱明目录目录一、ZEGO 即构科技实时互动 RTI二、降噪算法发展经历三、一般通讯场景下,即构 AI 降噪的技术实现四、音乐场景下,即构降噪技术实现五、实时语音增强技术展望一、ZEGO 即构实时互动RTI随着能力的拓新与服务的进步,我们意识到即时通讯RTC已经无法概括所有的线上交流,从最初的VoIP、RTC1.0,到现在的RTC3.0,已经有RTI的影子。随着技术与需求的共同推进,在实时场景下去做到接近现实世界的视听体验,更加强调互动(Interaction)。180P/360P能听清的音质1v1语聊无状态运营72
2、0P/4KAI降噪/空间音效万人连麦/元宇宙全球可视化运营VoIPRTC3.0实时互动RTI(Real-time Interaction)代表 ZEGO 能力的总和,同时也昭示着未来钻研的方向:相较于RTC,并非以信息交互为唯一目标,而是通过数字化的方式,让人与人共享时空,用可视化服务体系保障更好的互动体验,在高效准确的基础之上,满足精神需求。二、降噪算法发展经历办公场景办公场景:键盘鼠标敲击声、空调声、远处同事说话声,房间混响等家庭场景家庭场景:厨房碗碟碰撞声、抽油烟机风声、水流声、小孩哭声、电视背景音等户外场景户外场景:风噪、发动机噪声、胎噪、雨滴声、走路声、汽笛声等社交场景社交场景:Ba
3、bble噪声、喷麦、游戏屏幕敲击声、咳嗽声、喘气声等DCCRN、FullSubNet、FacebookDenoise谱减法维纳滤波法统计模型法子空间法时域法、频域法、均方根法、参数法和迭代法最大似然估计、最小均方估计、最大后验估计、Bayes估计Mask/Mapping非线性谱减、多子带谱减、MMSE谱减、基于掩蔽模型的谱减Rnnoise、Percepnet、DTLN时频域端到端奇异值分解和特征值分解AI降噪算法传统降噪算法 传统算法:传统算法:环境适应能力差 性能开销小 实时性好 算法稳定AI 算法:环境适应能力强 性能开销大 算法稳定性较差 音乐场景不友好场景复杂、低时延、低开销、高保真、
4、算法鲁棒性强场景复杂场景复杂:AnyTime,AnyWhere,AnyWay低时延低时延:在线连麦、在线K歌、在线合唱等低开销低开销:设备多样,玩法丰富高保真高保真:元宇宙,虚拟现实等语音增强非音乐音乐AI音乐检测 AI降噪传统降噪 自动增益回声抵消 增强语音 带噪语音三、一般通讯场景下,即构 AI 降噪的技术实现Mask 值的计算S(t)=Y(t)*Mask(t)Y(t)Mask(t)S(t)S(t)+N(t)=Y(t)语音噪声带噪语音STFTFeaturesISTFTCRNN|.|MaskY(t)S(t)CRNNDenseCovCovGRUGRUDense高鲁棒性:多平台覆盖:Androi
5、d、IOS、MAC、Windows、Linux、鸿蒙等多场景覆盖:工厂、办公、地铁、公交、大自然等数据增广:加频扰、加混响、低通滤波、削波处理低开销:基于人耳听觉特性,进行特征压缩,特征量40+个精简网络模型,计算量小于30M FLOPs推理库指令集优化低延时、高保真:引入梳状滤波器,提高语音特征的有效性,有效抑制谐波间噪声自适应Mask值,解决大噪声场景下的过抑制问题训练优化:调整数据分布,提升重要及常用场景的降噪效果Loss优化,引入四次方误差来强调训练估计错误的代价引入注意力机制,语音状态下少抑制、非语音状态下多抑制,减少对语音的损伤增加数据的乱序及drop机制,提高泛化能力,防止过拟合
6、清唱、窃窃私语场景户外场景办公场景音乐场景在实时处理方面,默认采样率32KHz,帧长10ms,算法延时36ms,整体计算量大约为 50M FLOPS,RTF指标在各个平台和终端上均控制在1%以内。问题:对音乐场景不友好自测客观评分四、音乐场景下,即构降噪技术实现音乐场景下,比如音乐教学、外接声卡等,AI降噪容易将音乐当成噪声,并对其进行降噪处理,导致音乐过抑制,严重影响用户体验。为此,引入AI音乐检测,当检测到音乐场景时,调整降噪策略,还原高保真音质。音乐检测网络模型 ZegoAIMusicDetecion 秉承着