当前位置:首页 > 报告详情

黎立-端侧大模型落地关键技术探索.pdf

上传人: 鲁** 编号:615341 2025-03-03 29页 6.87MB

1、端侧大模型落地关键技术探索黎立 北京航空航天大学演讲嘉宾黎立北京航空航天大学北京航天航天大学教授,荣获2024年IEEE TCSE新星奖(首位华人),2023年ACM北京新星奖,2023年MSR Ric Holt青年研究成就奖,入选澳大利亚2020年优秀青年基金(DECRA),曾被评为全球前三最有影响力的青年软件工程研究人员。主要研究方向为智能软件工程和移动软件工程,累计发表高水平期刊和会议论文150余篇,谷歌学术引用超8500次(H-index为45),荣获10项最佳/杰出论文奖励。受邀担任中科院一区期刊(ACM Computing Survey)编委以及包括TOSEM、TSE、ICSE、E

2、SEC/FSE、ASE、ISSTA在内的CCF A类期刊和国际会议的审稿人,多次受邀在国际会议上作特邀报告。智能手机2.0:大模型让智能手机更智能各大手机厂商正奋力打造具有原生智能的移动操作系统AI云应用端AI原生智能AI应用鸿蒙(端)AI原生智能AIAS-IS:量AI模型部署在云端,少量模型被嵌应中OS下层AI云TO-BE:核场景端侧完成,核场景沿云端模型决策器可根据应请求动决定是否调云侧模型(如隐私需求,联,或者概率端侧模型得不到好结果)大模型入端势在必行,带来巨大机遇的同时也面临着诸多挑战SE 2030FSE 2024大模型入端=大模型入端+大模型应用编程框架入端领域大模型基础大模型微调

3、 小型化(量化、压缩)微调研发大模型应用市场 数据处理(质量清晰、标注、保护等)模型性能 模型安全编程框架入端 定制化API大模型入端 OS智能应用(运行时感知)智能辅助研发 应用编程框架数据清理与保护 数据清洗:高质量标注数据是训练高质量AI模型的基础Non-English Languages3.4%Interrogation0.3%Punctuation10.4%HTML tags16.6%URLs0.3%Short Sentence35.5%Parentheses9.7%Javadoc tags23.8%33.1%66.9%OthersNoiseCodeSearchNet数据集示例包含量

4、注释-代码对(Comment-Code Pairs)假设:代码注释与代码具有相同的语义Zhensu Sun,Li Li,Yan Liu,Xiaoning Du,Li Li,On the Importance of Building High-quality Training Datasets for Neural Code Search,ICSE 2022(CCF A)数据清洗:高质量标注数据是训练高质量AI模型的基础Zhensu Sun,Li Li,Yan Liu,Xiaoning Du,Li Li,On the Importance of Building High-quality Tra

5、ining Datasets for Neural Code Search,ICSE 2022(CCF A)GithubStackOverflowHeuristic RuleVariational Auto-EncoderBootstrap Query CorpusEM-GMM ClusteringRaw Comment-Code PairsJavadoc tagsHTML tagsShort SentenceLosstrainModel-based Semantic Filter Comment-Code PairsQuery-Code PairsRule-based Syntactic F

6、ilter1.部分注释与代码语义关:Not for public use.This method is expected to be retained only as a package private method.2.代码注释与通场景问题语格可能不致语法级过滤存在不 基于规则的语法级过滤规则可扩展 基于模型的语义级过滤部分过滤规则列表Comment-Code PairQuery-Code Pair数据保护:高质量标注数据需要技术手段进行保护“say hello world”targeted poisoned modelprint(“hello,world!”)untargeted pois

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了端侧大模型落地的关键技术。黎立,北京航空航天大学教授,分享了他在智能软件工程和移动软件工程领域的研究成果。他提出了大模型入端的概念,即在大模型基础上开发应用编程框架,实现端侧完成核心场景,非核心场景沿用云端大模型。此外,他还提出了基于代码语义等价变换的数据水印技术,以保护开源代码免受未经授权的训练使用。在端侧大模型落地方面,面临技术挑战,如模型大小、性能和安全性等问题。未来展望中,黎立提出了端侧大模型发展的四个思考方向,包括提供智能感知能力、端云协同实现最优用户体验、集成大模型应用编程框架和开箱即用的Agents,以及解决端侧大模型落地的技术挑战。
"端侧大模型如何提升智能手机智能?" 如何实现大模型在端侧的应用?" "端侧大模型落地,面临哪些技术挑战?"
客服
商务合作
小程序
服务号
折叠