解奉龙-FireRed-基于大模型的语音、音乐技术综合实践.pdf-在线下载-三个皮匠报告

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit哈尔滨工业大学-微软亚洲研究院联合培养博士毕业，2015年获“微软学者”称号，2023国际语音合成大赛Blizzard Challenge单项冠军，现于小红书负责语音识别与合成、语音交互、音乐技术在小红书全场景下的研发及落地。打造基于大模型的语音/音乐技术前沿综合解决方案FireRed。其在语音领域会议及期刊ICASSP、INTERSPEECH

2、、IEEE TASLP、SPEECH COMMUNICATION等发表论文数十篇。演演讲讲主主题题：F Fi ir re eR Re ed d-基基于于大大模模型型的的语语音音/音音乐乐技技术术综综合合实实践践解解奉奉龙龙小小红红书书音音频频技技术术负负责责人人ML-SummitML-SummitFireRed-基于大模型的语音技术综合实践解奉龙小红书语音技术负责人ML-SummitML-Summit01语音识别FireRedASR02语音合成FireRedTTS03全双工语音交互FireRedChatFireRed基于大模型的语音技术综合实践ML-SummitML-Summit01语音识别

3、及大模型语音识别发展历程02FireRedASRFireRedASR基于大模型的中英语音识别系统及应用落地ML-SummitML-Summit近十年ASR发展三阶段输入语音输出文字声学模型DNN|LSTM|BLSTM|CLDNN语言模型解码器发音模型单个神经网络Transducer|Encoder-Decoder输入语音输出文字混合ASR端到端ASR大模型ASR预训练端到端训练后训练单音素GMM三音素GMM特征音素对齐三音素决策树声学模型训练预训练有监督训练后训练强化学习大模型ASREncoder-Adapter-LLM输入语音输出文字2016年2023年模块多流程长知识繁精简准确高效参数更大

4、数据更多功能更强单一场景语音识别IM语音消息转文字复杂场景语音识别UGC视频字幕直播字幕Agent语音交互GPT4oML-SummitML-Summit大模型ASR介绍各家模型结构接近引入预训练文本LLM训练流程更加丰富准度更高功能更强预训练有监督训练后训练(可选)强化学习(可选)EncoderLLMAdapter大模型ASR输入语音输出文字初始化LLM初始化EncoderLLM文本文本CE Loss(预测下个Token)Encoder语音语音或文本CE Loss初始化全部EncoderLLMAdapter语音语音对应文本CE LossContextEncoderLLMAdapter语音语

5、音对应文本CE LossContextEncoderLLMAdapter语音语音对应文本MWER Loss初始化全部ML-SummitML-Summit大模型ASR业内情况：23年起，越来越多国内外语音团队投入大模型ASR研发*主要列举ASR相关模型，不包含主打Chat、Omni、TTS能力的语音模型开源多语言 ASR+AST 无LLMWhisperSLMUSMQwen-AudioSenseVoiceSeed-ASRFireRedASRgpt-4o-trans2022.122023.032023.092023.112024.072024.072025.012025.03 部分开源多语言

6、多任务无LLM 开源中/英/官话方言 ASR 无LLM/有LLM 闭源多语言多任务有LLM 闭源多语言 ASR 无LLM 开源多语言多任务有LLM 闭源多语言 ASR 有LLM 闭源多语言单任务ASRML-SummitML-SummitFireRedASR-AEDFireRedASR-LLM设计目标准度与推理效率的平衡极致的准度特点CER极低且推理速度快中文公开测试集新SOTA模型图示训练数据7万小时人工精标ASR数据训练流程从头训练Qwen2初始化LLM，左侧AED初始化Encoder，LoRA微调ConformerEncoder Hello WorldTransfo