1、百度大模型原生安全百度大模型原生安全构建之路构建之路演讲人:冯景辉百度/安全平台副总经理 安全风控负责人你是否也遇到过这样的困扰?你是否也遇到过这样的困扰?CONTENTS目 录01大模型安全的挑战02大模型安全的演进03开始原生安全之路04关注智能体安全大模型安全挑战大模型全生命周期中遇到的不同挑战大模型安全面临的全生命周期挑战大模型安全面临的全生命周期挑战010102020303在构建大模型服务时,百度将大模型全生命周期划分为三个关键阶段:训练阶段、部署阶段、以及业务运营阶段,在各业务阶段面临的安全风险、以及挑战各有不同:大模型训练阶段.企业自有数据如何在保障数据安全与隐私的前提下,实现大
2、模型的精调、推理、共建?大模型部署阶段.大模型部署时如何防止模型窃取与泄漏?大模型业务运营阶段.大模型服务在运营阶段,如何保障接口安全、投毒反馈等黑产攻击?如保障提问内容、输出内容安全?大模型训练阶段的安全挑战大模型训练阶段的安全挑战准确性,多样性之间如何平衡?训练数据选择与清洗是大模型成败的关键!数据选择数据选择数据清洗数据清洗识别与去除价值观不符、偏见歧视等内容训练数据中商标、著作、专利等识别识别个人信息,隐私信息,肖像权等语料数据的血缘分析,帮助我们厘清数据归属与知识产权如何对训练数据做质量评估?大模型训练与部署阶段的安全挑战大模型训练与部署阶段的安全挑战数数据据安安全全与与模模型型保保
3、护护数数据据/模模型型是是企企业业的的核核心心资资产产和和竞竞争争力力:互联网公开数据、企业自有数据(原始语料数据、标注数据、精调数据)、企业采购数据数据和模型的可可复复制制性性,在使用流通中如何防防内内鬼鬼窃窃取取?数数据据安安全全风风险险“内鬼”窃取数据数据泄露数据篡改数据删除内部人员恶意窃取数据某大型国际信托有限公司“沈某”利用任职便利,利用公司与银行之间进行专线互联的终端机,数次非法登录该银行个人征信系统,查询并下载保存他人征信报告共计100份。某生物技术有限公司存在数据泄露情况,其委托的另一软件公司研发的“基因外显子数据分析系统”,包含公民信息、技术等信息,涉及泄露数据总量达19.1
4、GB。经检查,该公司在开发系统互联网测试阶段,未对相关数据进行加密,未落实安全保护措施。数据未加密导致大量数据泄露内部人员恶意窃取售卖数据上海某大药房“内鬼”数据分析师利用工作便利将大量交易数据导出并售卖,严重侵犯公民个人信息,该大药房也因未履行数据保护义务造成数据泄露的违法行为被公安机关罚款110万元。内部人员恶意删除数据某公司员工罗某因对离职待遇不满,利用在公司工作时获知的公司云服务器账号和密码,私自删除公司存放于云服务器后台的数据,公司因数据无法恢复向合作方赔付经济损失3万元,并报警处理。上海某科技公司犯罪嫌疑人曹某利用自己是软件工程师的优势,篡改余额后,以每周4至5次每次1万元的频率,
5、陆续给自己银行卡提取了230余万元。曹某又利用朋友的身份证再次办理账号,以同样的方式再次从公司提现36万元。内部人员恶意篡改数据如何实现语料数据、日志数据的合合规规要要求求模型私有化部署时,如果防止黑客、竞对的恶恶意意攻攻击击和和模模型型窃窃取取风险?大模型业务运营阶段的安全挑战大模型业务运营阶段的安全挑战针对“提问内容”存在的安全挑战在与大模型交互提问时,用户输入的 prompt 也能存在各类违法违规违法违规内容风险,主要涵盖如下几类:涉黄涉赌涉毒价值观涉恐涉爆 低俗/辱骂恶意代码大模型业务运营阶段的安全挑战大模型业务运营阶段的安全挑战针对“提问内容”存在的安全挑战在与大模型交互提问时,用户
6、输入的 prompt 属于提示注入提示注入攻击。提示注入是近期对大模型产生较大影响的新型漏洞,特别是对于那些采用提示学习方法的模型而言。注入恶意指令的提示可以通过操纵模型的正常输出过程以导致大语言模型产生不适当、有偏见或有害的输出目标劫持注入(直接)提示泄漏(直接)越狱攻击(直接)指代/主语缺省(直接)网页/文档/图像载体(间接)大模型业务运营阶段的安全挑战大模型业务运营阶段的安全挑战提示注入攻击漏洞示例大模型业务运营阶段的安全挑战大模型业务运营阶段的安全挑战梯度攻击梯度攻击加入一些扰动的prompt后缀,达到完全相反的输出结果系统化系统化梯度攻击所使用的后缀,其可以通过系统化的方法实现GCG