exploitbench

exploitbench

exploitbench

ExploitBench measures how far AI agents climb, from reaching vulnerable code, to triggering the bug, to building exploit primitives, to arbitrary code execution.

AI 简介

ExploitBench 是一个用于评估 AI 代理在漏洞利用过程中的表现的工具,从发现易受攻击代码到触发漏洞、构建利用原语,直至实现任意代码执行。该项目采用 Python 编写,支持通过直接 API 或 OpenAI 兼容网关驱动模型,并可通过 ExploitBench MCP 服务器驱动容器。它特别设计了针对 Chromium V8 引擎的测试环境,能够测量 16 种不同的漏洞利用能力。适用于安全研究人员、学术界及模型提供商评估和比较不同 AI 模型在实际漏洞利用场景下的性能。项目提供了预构建的 V8 评估镜像以简化设置流程,同时鼓励用户避免使用强化学习方法以免污染结果。

Python
MIT License
248
Stars
16
Forks
1
Watchers
3
Issues

Star 增长

今日+9
近 7 天+24
近 30 天+105
综合评分83.69
默认分支main