科技行业前瞻系列专题:国际巨头的端侧AI布局-240606(48页).pdf

编号:164496 PDF  PPTX 48页 7.92MB 下载积分:VIP专享
下载报告请您先登录!

科技行业前瞻系列专题:国际巨头的端侧AI布局-240606(48页).pdf

1、科技前瞻系列专题 国际巨头的端侧AI布局 西南证券研究发展中心西南证券研究发展中心 海外研究团队海外研究团队 20242024年年6 6月月 目 录 1 苹果AI布局 1 2 高通AI布局 3 三星AI布局 4 相关标的 2 1.1.1 苹果AI:模型侧:MM1 3月苹果正式公布自家的多模态大模型MM1,MM1是一个具有最高300亿参数的多模态LLM系列。MM1由密集模型和混合专家(MoE)变体组成,具有300亿、70亿、30亿参数等多个版本。MM1不仅在预训练指标中实现最优性能SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。得益于大规模多模态预训练,MM1模型在上下文预测

2、、多图像和思维链推理等方面表现不错。MM1模型在指令调优后展现出强大的少样本学习能力。在几乎所有基准测试中,苹果的MoE模型比密集模型取得更好的性能,显示MoE进一步扩展的巨大潜力。数据来源:MM1:Methods,Analysis&Insights from Multimodal LLM Pre-training,西南证券整理 由于其大规模多模态预训练,MM1可进行上下文预测。这使得MM1能够:a)计数对象并遵循自定义格式;b)引用图像的部分并执行OCR;c)展示关于日常物品的常识和词汇知识;d)执行基本的数学函数。MM1模型可以遵循指令进行跨图像推理。示例和图像来自VILA;当使用思维链提

3、示时,VILA能够正确回答。3 1.1.2 苹果AI:模型侧:OpenELM 4月26日,苹果宣布了更大的端侧AI推进,推出全新的开源大语言模型OpenELM。OpenELM包含2.7亿、4.5亿、11亿和30亿个参数的四种版本,定位于超小规模模型,运行成本更低,可在手机和笔记本电脑等设备上运行文本生成任务。同时,公司开源了OpenELM模型权重和推理代码、数据集、训练日志、神经网络库CoreNet。OpenELM使用了“分层缩放”策略,来有效分配Transformer模型每一层参数,从而提升准确率。在约10亿参数规模下,OpenELM与OLMo相比,准确率提高了2.36%,同时需要的预训练t

4、oken数量减少了50%。OpenELM的基准测试(数据类型BFloat16)在工作站(配备英特尔i9-13900KF CPU、RTX 4090 GPU,24GB DDR5内存),以及M2 Max MacBook Pro(64GB内存)运行。数据来源:OpenELM:An Efficient Language Model Family with Open Training and Inference Framework,新智元,西南证券整理 OpenELM与公开LLM对比 常见的小模型性能对比 4 1.1.3 苹果AI:模型侧:Ferret-UI 4月8日,苹果展示了多模态模型Ferret-U

5、I。Ferret-UI系统可以理解手机屏幕上的应用程序内容,专为增强对移动端UI屏幕的理解而定制,其配备了引用(referring)、定 位(grounding)和 推 理(reasoning)功能。Ferret-UI具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面(UI)屏幕并与其有效交互的能力。Ferret-UI与OpenAI近期发布的GPT-4o、谷歌近期发布的Gemini 1.5 Pro在功能上异曲同工。Ferret-UI可执行从基本到复杂任务等11种任务。它能在移动UI屏幕上使用灵活的输入格式(点、框、涂鸦)执行指代任务(例如控件分类、图标识别、OCR)和定位任务(例如查找控

6、件、查找图标、查找文本、控件列表)。这些基本任务为模型提供了丰富的视觉和空间知识,使其能在粗略和精细级别(例如各种图标或文本元素之间)区分UI类型。这些基础知识对于执行更高级的任务至关重要。具体来说,Ferret-UI不仅能在详细描述和感知对话中讨论视觉元素,还可在交互对话中提出面向目标的动作,并通过功能推理推断出屏幕的整体功能。数据来源:Ferret-UI:Grounded Mobile UI Understanding with Multimodal LLMs,西南证券整理 5 Ferret-UI建立在Ferret的基础上。Ferret是一个MLLM,在不同形状和细节水平的自然图像中实现空

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(科技行业前瞻系列专题:国际巨头的端侧AI布局-240606(48页).pdf)为本站 (孔明) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠