mllm-jailbreak-bench

ziyuwowo

Reproducible benchmark for adversarial attacks on multimodal large language models

AI 简介

这是一个面向多模态大语言模型（MLLM）的可复现越狱攻击基准测试框架，用于系统性评估模型在对抗性输入下的安全性表现。它支持五类黑盒攻击：图像注入、音频注入、图文协同攻击、OCR越狱和视觉提示泄露，并提供攻击成功率（ASR）与拒绝质量校准指标；采用固定随机种子、确定性评估流程和HF兼容适配器，确保跨模型结果可比。适用于AI安全研究人员、模型厂商及红队人员对多模态模型开展标准化鲁棒性评测与防御方案验证。

Python

Other

在 GitHub 查看

221

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分45.04

默认分支main

mllm-jailbreak-bench

Star 增长

加入交流群