《彭晗_百灵多模态Ming-Omni研发实践与探索.pdf》由会员分享,可在线阅读,更多相关《彭晗_百灵多模态Ming-Omni研发实践与探索.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、Ming-Omni:百灵多模态实践与探索彭晗蚂蚁百灵大模型高级算法专家2026.04百灵大模型春节焕新百灵大模型春节焕新MingLingRingInclusion AI:https:/huggingface.co/inclusionAI Ming-flash-omni-2.0:https:/huggingface.co/inclusionAI/Ming-flash-omni-2.0 Ling-2.5-1T:https:/huggingface.co/inclusionAI/Ling-2.5-1T Ring-2.5-1T:https:/huggingface.co/inclusionAI/Rin
2、g-2.5-1T n Ming-flash-omni-2.0Ming-flash-omni-2.0,能看、能听、能说、能画的全能AI,Omni模型的新SOTAn Ling-2.5-1TLing-2.5-1T:高效的混合线性注意力架构高效的混合线性注意力架构,高效的原生智能体交互高效的原生智能体交互,在复杂推理、在复杂推理、指令遵循能力具有明显优势。指令遵循能力具有明显优势。n Ring-2.5-1TRing-2.5-1T:混合线性注意力架构,在生成效率、思考深度、长程混合线性注意力架构,在生成效率、思考深度、长程执行上均有大幅提升。执行上均有大幅提升。百灵大模型春节焕新百灵大模型春节焕新Min
3、gInclusion AI:https:/huggingface.co/inclusionAI Ming-flash-omni-2.0:https:/huggingface.co/inclusionAI/Ming-flash-omni-2.0 Ling-2.5-1T:https:/huggingface.co/inclusionAI/Ling-2.5-1T Ring-2.5-1T:https:/huggingface.co/inclusionAI/Ring-2.5-1T n Ming-flash-omni-2.0Ming-flash-omni-2.0,能看、能听、能说、能画的全能AI,Omni
4、模型的新SOTA Ming-UniVision Ming-UniAudio Ming-Lite-Omni-1.5 Ming-flash-omni-preview Ming-flash-omni-2.0Ming-flash-omni-2.0Ming-OmniMing-Omni:ALLALL inin oneone modelmodel,能看、能听、能说、能画的全能,能看、能听、能说、能画的全能AIAI开源领域:首个模态支持上全面对标GPT/Gemini,首个千亿参数规模的开源全模态模型 n 多模态MoE,跨模态特征融合,兼顾模态特征差异n 多尺度图像生成n 连续语音Tokenizor:MingT
5、ok-Audio Ming-flash-omniMing-flash-omni 2.02.0:兼具领先的通用泛化与深度的领域专长:兼具领先的通用泛化与深度的领域专长突破了专精与全面难兼顾的问题突破了专精与全面难兼顾的问题n 从 Ming-lite-omni 到 Ming-flash-omni-preview,我们验证了模型规模对性能的提升作用;n 从 Ming-flash-omni-preview 到Ming-flash-omni-2.0,通过海量数据的精细化打磨,实现全模态模型的新SOTA。证明一个统一架构的全模态模型,完全可以既是博学的通才,又是特定模态的专家。Ming(Multimoda
6、lMing(Multimodal LingLing):):多模态模型将走向统一架构,实现模态及任务统一多模态模型将走向统一架构,实现模态及任务统一模态功能多模态单模态理解生成理解生成统一 图文理解:Qwen-VL系列(阿里通义)、InternVL系列(上海AI Lab)、Seed-VL系列(字节)语音理解:Qwen-Audio系列(阿里通义),Whisper(OpenAI)主要覆盖图像、视频、音频等两个及以上模态,例如:紫东太初(中科院)覆盖可见光、SAR、高光谱等多种模态:Skysense(蚂蚁)语音U&G:Qwen-Omni(阿里通义),Baichuan-Omni(百川),MiniCPM-