1、端侧大模型落地关键技术探索黎立 北京航空航天大学演讲嘉宾黎立北京航空航天大学北京航天航天大学教授,荣获2024年IEEE TCSE新星奖(首位华人),2023年ACM北京新星奖,2023年MSR Ric Holt青年研究成就奖,入选澳大利亚2020年优秀青年基金(DECRA),曾被评为全球前三最有影响力的青年软件工程研究人员。主要研究方向为智能软件工程和移动软件工程,累计发表高水平期刊和会议论文150余篇,谷歌学术引用超8500次(H-index为45),荣获10项最佳/杰出论文奖励。受邀担任中科院一区期刊(ACM Computing Survey)编委以及包括TOSEM、TSE、ICSE、E
2、SEC/FSE、ASE、ISSTA在内的CCF A类期刊和国际会议的审稿人,多次受邀在国际会议上作特邀报告。智能手机2.0:大模型让智能手机更智能各大手机厂商正奋力打造具有原生智能的移动操作系统AI云应用端AI原生智能AI应用鸿蒙(端)AI原生智能AIAS-IS:量AI模型部署在云端,少量模型被嵌应中OS下层AI云TO-BE:核场景端侧完成,核场景沿云端模型决策器可根据应请求动决定是否调云侧模型(如隐私需求,联,或者概率端侧模型得不到好结果)大模型入端势在必行,带来巨大机遇的同时也面临着诸多挑战SE 2030FSE 2024大模型入端=大模型入端+大模型应用编程框架入端领域大模型基础大模型微调
3、 小型化(量化、压缩)微调研发大模型应用市场 数据处理(质量清晰、标注、保护等)模型性能 模型安全编程框架入端 定制化API大模型入端 OS智能应用(运行时感知)智能辅助研发 应用编程框架数据清理与保护 数据清洗:高质量标注数据是训练高质量AI模型的基础Non-English Languages3.4%Interrogation0.3%Punctuation10.4%HTML tags16.6%URLs0.3%Short Sentence35.5%Parentheses9.7%Javadoc tags23.8%33.1%66.9%OthersNoiseCodeSearchNet数据集示例包含量
4、注释-代码对(Comment-Code Pairs)假设:代码注释与代码具有相同的语义Zhensu Sun,Li Li,Yan Liu,Xiaoning Du,Li Li,On the Importance of Building High-quality Training Datasets for Neural Code Search,ICSE 2022(CCF A)数据清洗:高质量标注数据是训练高质量AI模型的基础Zhensu Sun,Li Li,Yan Liu,Xiaoning Du,Li Li,On the Importance of Building High-quality Tra
5、ining Datasets for Neural Code Search,ICSE 2022(CCF A)GithubStackOverflowHeuristic RuleVariational Auto-EncoderBootstrap Query CorpusEM-GMM ClusteringRaw Comment-Code PairsJavadoc tagsHTML tagsShort SentenceLosstrainModel-based Semantic Filter Comment-Code PairsQuery-Code PairsRule-based Syntactic F
6、ilter1.部分注释与代码语义关:Not for public use.This method is expected to be retained only as a package private method.2.代码注释与通场景问题语格可能不致语法级过滤存在不 基于规则的语法级过滤规则可扩展 基于模型的语义级过滤部分过滤规则列表Comment-Code PairQuery-Code Pair数据保护:高质量标注数据需要技术手段进行保护“say hello world”targeted poisoned modelprint(“hello,world!”)untargeted pois