exploitbench

ExploitBench measures how far AI agents climb, from reaching vulnerable code, to triggering the bug, to building exploit primitives, to arbitrary code execution.

AI 简介

ExploitBench 是一个面向AI安全能力评估的基准测试框架，用于系统性量化大模型在真实漏洞利用链中的渐进式能力水平。它将漏洞利用过程分解为四个递进阶段：定位脆弱代码、触发漏洞、构造利用原语、实现任意代码执行，并通过容器化漏洞环境（如 Chromium V8）与模型API对接，支持自动化、可复现的端到端评估。项目采用模块化架构，预置标准化配置与托管镜像，降低实验门槛；强调方法论一致性，禁用强化学习以保障结果可比性。适用于AI安全研究、红队评估、模型漏洞响应能力验证及大模型对抗鲁棒性分析等场景。