A2--付红勋--AI生成代码的质量、合规风险及对策.pdf-三个皮匠报告

1、AI生成代码的质量、合规风险及对策付红勋新思 SIG 中国区技术总监目录 AIGC 及 AIGCode 的魅力 AIGCode 的质量、合规风险 AIGCode 的风险对策 AI in 新思SIG PortfolioC O N T E N T SAIGC 及 AIGCode 的魅力AIGC 的演进ML机器自主学习（无需显式编程）NLP分析、理解自然语言DL高阶ML（自动提取特征）Neural NetworksLLM理解、生成自然语言GenAI依上下文生成新内容AI机器像人一样感知、思考、行动AIGCodeAIGCode 的魅力效率显著提升“我需要按优先级从列表中选择项的代码”生成式 AI

2、将颠覆软件编码，结合开发相关技术，程序员 30%的工作可被自动化。Gartner，AI 技术成熟度曲线，2023质量质量成本成本进度进度Q QEConEConAIAI赋能软件研发赋能软件研发提质提质增效增效AIGCode 的质量、合规风险质量：有报告表明，AIGCode 后，代码质量下行明显可维护性下降。AI总是倾向于做加法：新增/复制为主/多出1/3删除/更新/移动为辅 GitClear，Coding on Copilot:2023年数据表明代码质量面临下行压力4年来的代码变更率GitClear分析了 2020-01 2023-12 修改的 1.53 亿行代码，以评估代码质量差异4年来的代码

3、变动情况（loc）质量下降。提交两周内就修改的代码占：2020(3.3%)2023(7.1%)翻番预计 2024 比 2021(AIGC前)再翻番安全：有研究表明，AIGCode 并不那么安全35.8%包含安全漏洞C+代码漏洞最多涉及 42 种 CWE；其中 11 种属于 CWE Top 25-2022Security Weaknesses of Copilot Generated Code in GitHub(Oct.,2023)Is GitHubs Copilot as Bad as Humans at Introducing Vulnerabilities in Code?(Aug.,2

4、023)在各种漏洞类型上的表现不同在引漏洞不像类那么糟糕成代码中漏洞未修复的率：1/3成代码中漏洞已修复的率：1/4安全：AIGCode vs 人工代码AI更擅规避某些（如语法类）漏洞，如：CWE 787-Out of bounds WriteCWE 79-Cross Site ScriptingCWE 416-Use After FreeCWE 125-Out of Bounds ReadCWE 190-Integer OverflowCWE 119-Improper Restriction of Operations但，AI更容易受外部输的影响，如：CWE 20-Improper Inpu

5、t ValidationCWE 502-Deserialization of Untrusted DataCWE 78-OS Command InjectionCWE 22-Path TraversalCWE 434-Unrestricted Upload of File with Dangerous TypeCWE 522-Insufficiently Protected Credentials合规：AIGCode 可能引入 IP 合规风险软件吞噬世界、开源吞噬软件、险吞噬开源 OSS 是 LLM 训练数据的重要来源 AIGCode 中很容易夹杂存在着 license 合规险的 OSS 组

6、件/段LLM 本身也面临着 10 大安全威胁LLM01提示词注入通过设计提示词（输入）操纵LLM 执行恶意操作LLM02不安全的输出直接使用 LLM 的输出可能导致 XSS、提权等严重后果LLM03训练数据染毒篡改训练数据，引入危及安全性、有效性等方面的漏洞LLM04DoS/DDoS对 LLM 实施资源密集型操作，导致服务降级或不可用LLM05供应链漏洞训练数据、模型、插件、服务等包含漏洞，引发安全攻击LLM06敏感信息泄露LLM 在其回复中可能泄漏敏感信息LLM07不安全的插件LLM 插件输入校验和访问控制不足，被恶意用于远端执行LLM08过度代理对基于 LLM 的系统过度授权，导致输出结果

A2--付红勋--AI生成代码的质量、合规风险及对策.pdf

相关报告