
mllm-jailbreak-bench
pardcomper
Reproducible benchmark for adversarial attacks on multimodal large language models
AI 简介
MLLM-Jailbreak-Bench 是一个用于评估多模态大语言模型对抗攻击的可复现基准测试工具。其核心功能包括通过五种类型的攻击(图像注入、音频注入、文本-图像串通、OCR越狱和视觉提示泄露)来衡量模型产生有害输出的可能性,并且支持任何HF兼容的大语言模型。该工具设计为可复现性强,采用固定种子和冻结攻击预算,确保评估过程的一致性;同时它还提供了对攻击成功率及校准估计的诚实报告,帮助区分真正的“越狱”与噪声。适用于需要评估和提高多模态大语言模型安全性的场景,如在部署前进行安全性检测。
Python
Other230
Stars
50
Forks
25
Watchers
0
Issues
Star 增长
今日0
近 7 天0
近 30 天+148
综合评分55.12
默认分支main