美国人工智能安全研究所&UK AISI:2024年OpenAI o1模型的预部署评估报告(英文版)(37页).pdf

编号:402159 PDF  中文版  DOCX 37页 2.03MB 下载积分:VIP专享
下载报告请您先登录!

美国人工智能安全研究所&UK AISI:2024年OpenAI o1模型的预部署评估报告(英文版)(37页).pdf

1、US AISI1and UK AISI2JointPre-Deployment TestOpenAI o1December 20241US AI Safety InstituteNational Institute of Standards and Technology2UK AI Safety InstituteDepartment of Science Innovation and TechnologyContents1Introduction11.1Disclaimer.11.1.1Limitations to Results.12Methodology12.1Pre-deploymen

2、t Evaluation.12.2Evaluated Models.22.3Agent Design.22.4Task Iterations and Cost.32.5Presenting Uncertainty.42.6Model-Sampling Parameters.4ICyber Capabilities Evaluations53US Cyber Capability Evaluation Methodology53.1Cybench Dataset.53.2Agent Methodology and Scoring.63.3Transcript Review.64US AISI C

3、yber Evaluation Results64.1Average Success Rates.64.2Per-Task Results.64.3Messages to Solve.85Opportunities for Future Work on US AISI Cyber Evaluations96UK AISI Cyber Evaluation Methodology96.1Agent Methodology and Scoring.117UK AISI Cyber Evaluation Results117.1Vulnerability Discovery and Exploita

4、tion.117.2Network Operations.137.3OS Environments.137.4Cyber Attack Planning and Execution.148Opportunities for Future Work on UK AISI Cyber Evaluations141IIBiological Capabilities Evaluations179US AISI Biological Evaluation Methodology179.1LAB-Bench Dataset.179.2Tool Use.189.3Scoring.1810 US AISI B

5、iological Evaluation Results1910.1 Primary Performance Measurements.1910.2 Tool Use Ablations.1910.3 Results with Abstention.2010.4 Free response answer choice configuration.2011 Opportunities for Future Work on US AISI Biological Capabilities Evaluations23IIISoftware and AI Development Evaluations2

6、412 US AISI Software and AI Development Evaluation Methodology2412.1 MLAgentBench Dataset.2412.2 Agent Methodology.2512.3 Scoring.2513 US AISI Software and AI Development Evaluation Results2613.1 Average Normalized Score.2613.2 Per-Task Results.2714 Opportunities for Further Work on US AISI Software

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(美国人工智能安全研究所&UK AISI:2024年OpenAI o1模型的预部署评估报告(英文版)(37页).pdf)为本站 (Yoomi) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠