当前位置:首页 > 报告详情

解奉龙-FireRed-基于大模型的语音、音乐技术综合实践.pdf

上传人: 哆哆 编号:631122 2025-04-19 33页 11.30MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit哈尔滨工业大学-微软亚洲研究院联合培养博士毕业,2015年获“微软学者”称号,2023国际语音合成大赛Blizzard Challenge单项冠军,现于小红书负责语音识别与合成、语音交互、音乐技术在小红书全场景下的研发及落地。打造基于大模型的语音/音乐技术前沿综合解决方案FireRed。其在语音领域会议及期刊ICASSP、INTERSPEECH

2、、IEEE TASLP、SPEECH COMMUNICATION等发表论文数十篇。演演讲讲主主题题:F Fi ir re eR Re ed d-基基于于大大模模型型的的语语音音/音音乐乐技技术术综综合合实实践践解解奉奉龙龙 小小红红书书音音频频技技术术负负责责人人ML-SummitML-SummitFireRed-基于大模型的语音技术综合实践解奉龙小红书语音技术负责人ML-SummitML-Summit01语音识别FireRedASR02语音合成FireRedTTS03全双工语音交互FireRedChatFireRed基于大模型的语音技术综合实践ML-SummitML-Summit01语音识别

3、及大模型语音识别发展历程02FireRedASRFireRedASR基于大模型的中英语音识别系统及应用落地ML-SummitML-Summit近十年ASR发展三阶段输入语音输出文字声学模型DNN|LSTM|BLSTM|CLDNN语言模型解码器发音模型单个神经网络Transducer|Encoder-Decoder输入语音输出文字混合ASR端到端ASR大模型ASR预训练端到端训练后训练单音素GMM三音素GMM特征音素对齐三音素决策树声学模型训练预训练有监督训练后训练强化学习大模型ASREncoder-Adapter-LLM输入语音输出文字2016年2023年模块多流程长知识繁精简准确高效参数更大

4、数据更多功能更强单一场景语音识别IM语音消息转文字复杂场景语音识别UGC视频字幕 直播字幕Agent语音交互GPT4oML-SummitML-Summit大模型ASR介绍各家模型结构接近引入预训练文本LLM训练流程更加丰富准度更高 功能更强预训练有监督训练后训练(可选)强化学习(可选)EncoderLLMAdapter大模型ASR输入语音输出文字初始化LLM初始化EncoderLLM文本文本CE Loss(预测下个Token)Encoder语音语音或文本CE Loss初始化全部EncoderLLMAdapter语音语音对应文本CE LossContextEncoderLLMAdapter语音语

5、音对应文本CE LossContextEncoderLLMAdapter语音语音对应文本MWER Loss初始化全部ML-SummitML-Summit大模型ASR业内情况:23年起,越来越多国内外语音团队投入大模型ASR研发*主要列举ASR相关模型,不包含主打Chat、Omni、TTS能力的语音模型 开源 多语言 ASR+AST 无LLMWhisperSLMUSMQwen-AudioSenseVoiceSeed-ASRFireRedASRgpt-4o-trans2022.122023.032023.092023.112024.072024.072025.012025.03 部分开源 多语言

6、多任务 无LLM 开源 中/英/官话方言 ASR 无LLM/有LLM 闭源 多语言 多任务 有LLM 闭源 多语言 ASR 无LLM 开源 多语言 多任务 有LLM 闭源 多语言 ASR 有LLM 闭源 多语言 单任务ASRML-SummitML-SummitFireRedASR-AEDFireRedASR-LLM设计目标准度与推理效率的平衡极致的准度特点CER极低且推理速度快中文公开测试集新SOTA模型图示训练数据7万小时人工精标ASR数据训练流程从头训练Qwen2初始化LLM,左侧AED初始化Encoder,LoRA微调ConformerEncoder Hello WorldTransfo

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了小红书在语音技术领域的创新和实践。关键点包括: 1. 小红书推出了自研的语音识别和合成系统FireRed,该系统基于大模型技术,取得了显著的性能提升。 2. FireRed系统在多个公开测试集上取得了新的准确率记录,并且在实际业务场景中表现出色,如语音识别和合成、视频旁白等。 3. FireRedASR-AED和FireRedASR-LLM是FireRed系统的两个重要组成部分,它们在语音识别和合成领域取得了重要突破。 4. FireRedTTS是基于大模型的语音合成系统,它能够提供高质量的语音合成,并且支持流式和非流式解码。 5. FireRedChat是小红书的全双工语音交互解决方案,它能够实现低延时的语音交互,并且支持多种模式的配置。 6. FireRedChat系统能够解决全双工语音交互系统在实际应用中遇到的各种挑战,如快速打断、环境噪音识别等。 以上是本文的核心内容,详细的数据和实验结果可以在原文中找到。
"FireRedASR如何实现语音识别及合成?" "FireRedTTS基于大模型的语音合成有哪些优势?" "FireRedChat如何解决全双工语音交互的落地挑战?"
客服
商务合作
小程序
服务号
折叠