pardcomper

mllm-jailbreak-bench

pardcomper

Reproducible benchmark for adversarial attacks on multimodal large language models

AI 简介

MLLM-Jailbreak-Bench 是一个用于评估多模态大语言模型对抗攻击的可复现基准测试工具。其核心功能包括通过五种类型的攻击(图像注入、音频注入、文本-图像串通、OCR越狱和视觉提示泄露)来衡量模型产生有害输出的可能性,并且支持任何HF兼容的大语言模型。该工具设计为可复现性强,采用固定种子和冻结攻击预算,确保评估过程的一致性;同时它还提供了对攻击成功率及校准估计的诚实报告,帮助区分真正的“越狱”与噪声。适用于需要评估和提高多模态大语言模型安全性的场景,如在部署前进行安全性检测。

Python
Other
230
Stars
50
Forks
25
Watchers
0
Issues

Star 增长

今日0
近 7 天0
近 30 天+148
综合评分55.12
默认分支main