小米-张俊博-声音技术的未来——大模型带来的音频算法革新.pdf-三个皮匠报告

1、声音技术的未来大模型带来的音频算法革新张俊博小米AI实验室语音技术专家“小米语音技术专家。博士毕业于中国科学院声学研究所，多年从事智能语音技术的研究和应用，在语音识别、发音评测、语音合成、音频标记等领域都做过深入的工作，在顶级会议和期刊发表论文 30 余篇，著有出版物Kaldi 语音识别实战。目前在小米负责若干项声学语音新技术的研发。”请插入您的照片讲师简介对大模型的思考小米的音频大模型探索内容提要对大模型的思考是“发现”，而不是“发明”原理上是量变，效果上是质变无法解释，只好说“涌现”大模型的成功，证明了这样的路线是可行的为 AI 研究指明了方向Llama2 模型：没有任何模型结构上的

2、创新为什么大模型具备如此神奇的能力？但大模型研发并没有技术原理上的门槛虽然不知道麦克斯韦方程组不妨碍古人发明指南针虽然暂时未能全面理解大模型不妨碍我们做出更强的大模型不知道人类对它的原理还远远称不上理解雨后春笋般的大模型研发图片来源小米自研大语言模型本地化、轻量部署手机端侧大模型部分场景媲美云端文本形式训练数据相对更易获取和处理大模型首先以文本模态出现但人类更倾向于使用视觉和声音交互大模型=大语言模型？GPT4-V(ision)UserWhat is unusual about this image?GPT-4The unusual thing about this image is that

3、 a man is ironing clothes on an ironing board attached to the roof of a moving 令人震惊的多模态能力强人工智能已实现？G小米的音频大模型探索全球最大消费级 IoT 平台6.99 亿 IoT 平台已连接设备数1370 万拥有 5 个及以上小米 IoT 设备的用户数AI 时代的小米小米声学语音技术在手机和 IoT 设备上针对垂域的识别率极高，且已经探索出成熟的迭代优化流程小爱同学背后的语音识别技术框架但是！这不是大模型时代的方案技术革新势在必行Whisper：大模型语音识别Whisper 原理有何不同？更先进的模型结构？

4、No模型结构并无不同多语种训练数据带有多任务标签680,000 hours of multilingual and multitask supervised data collected from the AudioPaLM：多语种语音直译大语言模型作为模型骨架和初始化参数多语种音频和文本数据迭代训练用 prompt 约束语音识别领域，提升识别率把大语言模型输出通过 cross-attention 联入 encoder小米 Prompt-ASR基于大模型的语音合成更加自然支持 Prompt 定制视频来源https:/ a little closer while our guide lets t

5、he light of his lamp fall upon the black wall at your side.baseline中文说话人合成效果VALL-E XVALL-E(X)算法框架基于大模型的小米自然语音 TTS使用小爱默认音色说话人迁移(prompt)小米声音识别技术目前支持 85 种声音事件大模型时代的声音理解我们的算法框架基座音频编码器模型开源可下载训练数据时长超过30年参数量超过10亿正在探索百亿参数量的模型独创的一致性集成蒸馏技术论文已被 ICASSP 2024 接收基座音频编码器的多任务应用声音增强/编辑/生成已有成果其实已经具备了部分大模型的能力需要进一步整合基于 Prompt 的声音生成结语大模型的成功为 AI 研究指明了方向多任务统一学习可以带来真正的理解能力和强大的任务自推广能力各任务的统一、各模态的统一是大势所趋微信官方公众号：壹佰案例关注查看更多年度实践案例

小米-张俊博-声音技术的未来——大模型带来的音频算法革新.pdf

相关报告