当前位置:首页 > 报告详情

孙豪泽-Baichuan-Omni-1.5:百川智能在端到端多模态大模型的实践探索.pdf

上传人: 哆哆 编号:631147 2025-04-19 43页 20.40MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit孙孙豪豪泽泽 百百川川智智能能多多模模态态负负责责人人2017年毕业于北京大学,在NLP,搜索和推荐领域均有过行业一线的实践经历。加入百川智能以来先后从事文本预训练,SFT,code Agent以及多模态预训练相关工作,近期专注于全模态模型,特别是语音端到端模型的算法探索。目前开源的Baichuan-Omni-1.5全模态模型在文本能力,图像/

2、视频理解,语音理解和生成效果上取得了最佳的平衡。演演讲讲主主题题:B Ba ai ic ch hu ua an n-O Ommn ni i-1 1.5 5:百百川川智智能能在在端端到到端端多多模模态态大大模模型型的的实实践践探探索索ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会百百川川智智能能在在端端到到端端多多模模态态大大模模型型的的实实践践探探索索孙豪泽 百川多模态团队ML-SummitML-Summit目目录录Baichuan-Audio 端到端语音模型Baichuan-Omni-1.5 全模态模型实践未来展望ML-SummitML-Summit端到端

3、语音理解生成模型ML-SummitML-SummitMoshi:1.Full-duplex model capable of simultaneously generating audio tokens and text tokens through a multi-stream output mechanism.2.Balance semantic and acoustic features through distillation,similar to the approach of SpeechTokenizer.3.Streamable low-latency generation.M

4、ain Limitations:1.Dual-channel(text&speech)input requires extensive training from scratch,placing high demands on the LLMs parameter scale.2.Exhibits a noticeable intelligence degradation compared to text-only models.Compared to pure text-based dialogue models,their performance tends to degrade.End

5、to End Audio-LLM FrameworkMoshi:a speech-text foundation model for real-time dialogueML-SummitML-SummitVITA-1.5/MiniCPM-o/Freeze-Omni/etc.1.Pseudo end-to-end:three paradigms for text and speech input-output processing2.No intelligence degradation problem.3.Low training cost.Main Limitations:1.Inabil

6、ity to utilize pure audio data or reuse partial LLM parameters,limiting the scalability.2.Lack of paradigm unification between audio understanding,generation,and text processing,making it difficult to leverage advancements in the text domain for future improvements(e.g.RL).3.Potential deficiencies i

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了百川智能在端到端多模态大模型的实践探索。主要内容包括: 1. Baichuan Audio模型:这是一种端到端的大规模音频语言模型,可以同时生成文本和音频标记。该模型由Baichuan-Audio Tokenizer、音频语言模型和基于流匹配的音频解码器三个基础组件组成。 2. 音频预训练数据:包括音频文本交替数据(INTLV)和交替文本到语音数据(ITTS)。这些数据通过分号分隔的文本和音频模态,以促进跨模态知识转移。 3. Baichuan Omni-1.5全模态模型:该模型将视觉分支和音频分支统一在自回归语言模型的范式中。视觉分支使用NaViT编码器处理图像/视频输入,音频分支则使用Baichuan Audio模型。 4. 未来展望:提出了统一理解和生成的图像标记器方法,通过引入分离的RVQ码本和多目标损失,试图解决直接在单个标记器中结合重建和语义目标带来的冲突问题。 5. 实验结果:Baichuan Audio模型在语音理解、生成任务上表现出色,Baichuan Omni-1.5全模态模型在文本能力、图像/视频理解、语音理解和生成效果上取得了最佳平衡。
百川智能如何解决语音模型的“智能退化”问题? Baichuan Audio Tokenizer在音频处理中如何平衡语义和声学信息? Baichuan-Omni-1.5全模态模型在多模态预训练数据方面有哪些创新?
客服
商务合作
小程序
服务号
折叠