小米-张俊博-声音技术的未来——大模型带来的音频算法革新.pdf

当前位置:首页 > 报告详情
小米-张俊博-声音技术的未来——大模型带来的音频算法革新.pdf

上传人: 张** 编号:177448 2024-10-01 31页 1.33MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
张俊博,小米AI实验室语音技术专家,博士毕业于中国科学院声学研究所,长期从事智能语音技术研究和应用。他负责小米声学语音新技术研发,著有《Kaldi 语音识别实战》一书。文章讨论了大模型带来的音频算法革新,指出大模型的成功证明了量变到质变的“涌现”现象,为AI研究提供了新的方向。小米在音频大模型探索方面取得了显著成果,如Whisper大模型语音识别和AudioPaLM多语种语音直译。小米的声音识别技术已支持85种声音事件,并正在探索百亿参数量模型。大模型时代的声音理解算法框架已具备部分大模型能力,需要进一步整合。
"小米音频大模型如何改变语音技术?" "大模型时代的声音技术有哪些突破性进展?" "小米如何利用大模型提升语音识别和合成技术?"
客服
商务合作
小程序
服务号
折叠