解奉龙-FireRed-基于大模型的语音、音乐技术综合实践.pdf

编号:631122 PDF 33页 11.30MB 下载积分:VIP专享
下载报告请您先登录!

解奉龙-FireRed-基于大模型的语音、音乐技术综合实践.pdf

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit哈尔滨工业大学-微软亚洲研究院联合培养博士毕业,2015年获“微软学者”称号,2023国际语音合成大赛Blizzard Challenge单项冠军,现于小红书负责语音识别与合成、语音交互、音乐技术在小红书全场景下的研发及落地。打造基于大模型的语音/音乐技术前沿综合解决方案FireRed。其在语音领域会议及期刊ICASSP、INTERSPEECH

2、、IEEE TASLP、SPEECH COMMUNICATION等发表论文数十篇。演演讲讲主主题题:F Fi ir re eR Re ed d-基基于于大大模模型型的的语语音音/音音乐乐技技术术综综合合实实践践解解奉奉龙龙 小小红红书书音音频频技技术术负负责责人人ML-SummitML-SummitFireRed-基于大模型的语音技术综合实践解奉龙小红书语音技术负责人ML-SummitML-Summit01语音识别FireRedASR02语音合成FireRedTTS03全双工语音交互FireRedChatFireRed基于大模型的语音技术综合实践ML-SummitML-Summit01语音识别

3、及大模型语音识别发展历程02FireRedASRFireRedASR基于大模型的中英语音识别系统及应用落地ML-SummitML-Summit近十年ASR发展三阶段输入语音输出文字声学模型DNN|LSTM|BLSTM|CLDNN语言模型解码器发音模型单个神经网络Transducer|Encoder-Decoder输入语音输出文字混合ASR端到端ASR大模型ASR预训练端到端训练后训练单音素GMM三音素GMM特征音素对齐三音素决策树声学模型训练预训练有监督训练后训练强化学习大模型ASREncoder-Adapter-LLM输入语音输出文字2016年2023年模块多流程长知识繁精简准确高效参数更大

4、数据更多功能更强单一场景语音识别IM语音消息转文字复杂场景语音识别UGC视频字幕 直播字幕Agent语音交互GPT4oML-SummitML-Summit大模型ASR介绍各家模型结构接近引入预训练文本LLM训练流程更加丰富准度更高 功能更强预训练有监督训练后训练(可选)强化学习(可选)EncoderLLMAdapter大模型ASR输入语音输出文字初始化LLM初始化EncoderLLM文本文本CE Loss(预测下个Token)Encoder语音语音或文本CE Loss初始化全部EncoderLLMAdapter语音语音对应文本CE LossContextEncoderLLMAdapter语音语

5、音对应文本CE LossContextEncoderLLMAdapter语音语音对应文本MWER Loss初始化全部ML-SummitML-Summit大模型ASR业内情况:23年起,越来越多国内外语音团队投入大模型ASR研发*主要列举ASR相关模型,不包含主打Chat、Omni、TTS能力的语音模型 开源 多语言 ASR+AST 无LLMWhisperSLMUSMQwen-AudioSenseVoiceSeed-ASRFireRedASRgpt-4o-trans2022.122023.032023.092023.112024.072024.072025.012025.03 部分开源 多语言

6、多任务 无LLM 开源 中/英/官话方言 ASR 无LLM/有LLM 闭源 多语言 多任务 有LLM 闭源 多语言 ASR 无LLM 开源 多语言 多任务 有LLM 闭源 多语言 ASR 有LLM 闭源 多语言 单任务ASRML-SummitML-SummitFireRedASR-AEDFireRedASR-LLM设计目标准度与推理效率的平衡极致的准度特点CER极低且推理速度快中文公开测试集新SOTA模型图示训练数据7万小时人工精标ASR数据训练流程从头训练Qwen2初始化LLM,左侧AED初始化Encoder,LoRA微调ConformerEncoder Hello WorldTransfo

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(解奉龙-FireRed-基于大模型的语音、音乐技术综合实践.pdf)为本站 (哆哆) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠