mllm-jailbreak-bench

pardcomper

Reproducible benchmark for adversarial attacks on multimodal large language models

AI 简介

这是一个面向多模态大语言模型（MLLM）的可复现越狱攻击基准测试框架，用于系统性评估模型在对抗性输入下的安全性表现。它支持五类黑盒攻击：图像注入、音频注入、图文协同攻击、OCR越狱和视觉提示泄露，并提供攻击成功率（ASR）与拒绝质量校准指标；基于Python实现，采用固定随机种子、确定性评测流程和Hugging Face兼容接口，确保跨模型评测结果可比。适用于AI安全研究人员、模型厂商及合规团队对多模态模型进行红队测试与安全加固验证。

Python

Other

在 GitHub 查看

230

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分45.12

默认分支main

mllm-jailbreak-bench

Star 增长

加入交流群