1、安全领域大模型构建范式与实践吴石腾讯安全科恩实验室CONTENTS/目录总结展望04安全领域大模型落地实践03安全领域大模型构建范式02概述01概述01418年起探索“AI+安全”,目前重点关注“AI赋能安全”方向Security of AI(AI自身安全)AI for Security(AI 赋能安全)核心目标确保 AI 系统自身安全性提升安全产品/业务智能化水平技术路径对抗样本防御 模型鲁棒性增强AI 能力与安全知识、数据融合业务价值防御 AI 系统被恶意利用威胁检测准确率提升 效率提升对抗样本生成算法,精准误导图像识别,首个对抗商用自动驾驶系统图像识别功能的研究案例特斯拉 Autopil
2、ot 安全研究对车道级系统攻击的完善研究发布于 USENIX Security20192020论文成果10余篇 CCF-A顶级会议 论文发布产学研合作产品落地科恩愿景:用 AI 赋能安全产品和业务,打造覆盖威胁感知、研判、防御的智能安全闭环5AI大模型取得突破性进展,带来发展机遇通用大模型变革各行业AI大模型通过大算力、大规模训练数据突破自然语言处理的瓶颈摆脱繁杂的算法、算力、数据整合工作,快速孵化行业大模型优化人机交互方式快速获取想要的信息或服务减少用户输入负担根据反馈和偏好,动态调整输出融合工作方式,提升效率辅助日常重复性工作和手动操作涌现更多智能助手类生产力工具业务改造升级掀起AIGC内
3、容生成浪潮理解用户需求生产不同风格的文本、图片、视频等内容安全新范式:网络安全大模型和平台相继推出微软发布Microsoft Security Copilot谷歌发布Google Cloud Security AI Workbench代码/流量分析告警/攻击研判解读安全知识问答安全智能运营应用实现基座模型上增加安全领域数据进行训练,协同智能体框架、安全知识库、工具库腾讯元宝AI 大模型赋能网络安全新范式安全领域大模型构建范式027数据采集、清洗、评估,形成独有的安全领域语料库融入腾讯混元大模型训练,网络安全领域能力明显提升通用大模型持续突破,是未来的构建范式,高质量领域语料仍是解锁专业任务的关
4、键钥匙构建范式一:构造高质量网络安全语料构建范式二:首创大模型网络安全领域能力评测体系大模型落地,评测是关键客观量化模型能力指导优化方向设计评测体系,搭建评测平台,构建评测数据输出头部大模型的评测结果安全语料构建与科学评测双轮驱动安全领域大模型发展8数据清洗套件 SecCorpus 构建一套完整的数据采集、数据清洗、数据评估流程书籍Common Crawl多源数据采集百科数据安全站点Arxiv开源数据关键词过滤基于分类器过滤FastText 文本质量判定模型语言模型计算 PPL安全语料召回数据质量过滤去重数据清洗语言清洗脏数据过滤自定义规则过滤MinHashLSH数据去重数据质量评测SecCo
5、rpus 科恩安全语料建设完整流程构建9SecCorpus 实现数据到模型能力端到端监控增量预训练混合数据预训练预训练安全小模型约 20B token高质量安全领域数据预训练安全小模型基于清洗的安全数据预训练160M-1.1B参数的小模型,160M模型在滚动测试集上的困惑度已达到1.8B通用模型水平增量预训练对Qwen、Baichuan等开源模型进行增量预训练,评估显示安全领域性能显著提升,已超过ChatGPT混合数据预训练构建的安全数据已融入 腾讯混元大模型 训练,网络安全领域能力明显提升,科恩基于最新混元大模型搭建的 威胁情报智能研判助手 取得更优效果123SecCorpus 科恩安全语料
6、建设效果得到验证10行业现状通用大模型评测大模型内生安全评测领域大模型评测现阶段行业内针对大模型的评测主要为:还没有针对大模型安全能力评测基准其中涉及到垂直领域的大模型评测,评测内容多为知识问题型选择题,较难客观评估大模型在垂直领域的能力。团队介绍2023年发布 SecBench 网络安全大模型评测平台(secbench.org)2025年发布 arxiv 技术文章,开源部分评测数据SecBench 网络安全大模型评测背景11搭建评测框架积累数据集输出评测结果支持不同模型、不同数据、不同评测指标的灵活接入和快速评测涵盖中英文两种语言,选择和问答两种题型,