《陈功-此芯P1-赋能人工智能与机器人创新开源生态.pdf》由会员分享,可在线阅读,更多相关《陈功-此芯P1-赋能人工智能与机器人创新开源生态.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、此芯P1-赋能人工智能与机器人创新开源生态2026/03演讲人:陈功开篇行业痛点与我们的答案端侧场景对高性能与低功耗的双重刚需,传统芯片方案难以兼顾算力与能效的矛盾硬件适配复杂、软件栈碎片化,开发者重复造轮子,创新落地周期长开发门槛高芯片、算法、硬件、系统之间适配成本高,缺乏统一的高性能底座生态割裂严重通用芯片难以支撑端侧大模型的低延迟、高流畅推理,产业创新受限端侧大模型落地难以芯片为底座,以开源为桥梁,赋能全产业创新加速行业痛点答案此芯 P1:专为边缘和端侧 AI 打造的开源友好型高能效主控芯片目录CONTENTSP1芯片介绍01P1与机器人系统02P1加速AI计算03开源项目与计划0401
2、P1芯片介绍制程工艺6nm先进制程,性能与功耗完美平衡P1 芯片性能参数CPU?12核Armv9.2(4+4+4),主频高达2.6GHzGPU?10核Immortalis-G720,支持硬件光线追踪AI?NPU算力30TOPS,综合算力高达45TOPS?支持64GB LPDDR5,带宽达100GB/s?支持8K60fps解码及8K30fps编码P1集成CPU、GPU和NPU,提供45TOPS端侧AI算力,支持百亿参数大模型部署P1 异构计算能力与AI算力此芯P1芯片采用CPU+GPU+NPU协同的异构计算架构,各单元分工明确、数据通路高效,显著提升复杂AI任务的并行处理效率与能效比。三核异构架
3、构设计P1芯片在低功耗下实现45TOPS(INT8)AI算力,满足边缘端实时推理需求,为机器人导航、视觉识别等高负载场景提供坚实算力支撑。45TOPS端侧算力解析通过NPU专用指令集与内存带宽优化,P1可高效运行Qwen-3B、Qwen-7B、Qwen-30B等百亿级参数大模型,支持本地化全栈AI应用落地。百亿参数模型部署能力02P1?AI?CPU/GPU LLM APIs(C/CPP/Python)NPUNPUGPUGPUCPUCPUNEON/SVE2ACL&KleidiCix Neural One APIs(C/CPP/Python)OpenCL/VulkanKernelOpenCLKer
4、nelCIX Neural One SDK(.cix)ONNX RTLLM Runtime(llama.cpp,MNN)ML Application(C/CPP/Python)HardwareIP CoreCix Direct One LibrariesML Runtime Frameworks and ApplicationEP ProviderGgml BeackendMNN BeckendAI ModelOne API for NPU Engine over Linux and AndroidOSHeterogeneous AI accelerator with differentpow
5、er and performance efficiencyOne SDK for Multi-EnginesBroad Inference Framework SupportBroad Model Format SupportCix AI Model HubP1 AI NOE SDK端侧AI CV 模型部署模型参数量Prefill 性能(Tokens/s)Decode 性能(Tokens/s)最佳配置0.6B936.4369.95Prefill:MNN+OpenCLDecode:Llama.cpp+CPU1.7B432.7732.38Prefill:Llama.cpp+VulkanDecode
6、:Llama.cpp+CPU4B182.1316.01Prefill:Llama.cpp+VulkanDecode:MNN+OpenCL7B102.6911.00Prefill:Llama.cpp+VulkanDecode:MNN+OpenCL8B90.1610.00Prefill:Llama.cpp+VulkanDecode:MNN+OpenCLQwen3-30B-A3B53.9617.77Prefill&Decode:Llama.cpp+CPU此芯P1 AI Performance多模态模型参数量推理框架后端Prefill(Tokens/s)Decode(Tokens/s)Qwen2.5-