ziyuwowo

mllm-jailbreak-bench

ziyuwowo

Reproducible benchmark for adversarial attacks on multimodal large language models

AI 简介

MLLM-Jailbreak-Bench 是一个用于评估多模态大语言模型对抗攻击的可复现基准测试工具。该项目的核心功能包括通过五种类型的攻击(图像注入、音频注入、文本-图像串通、OCR越狱和视觉提示泄露)来衡量模型生成有害输出的可能性,具有高度的可复现性、模型无关性和诚实报告攻击成功率及校准估计的特点。它适用于任何与Hugging Face兼容的多模态大语言模型的安全性评估场景,旨在提高这些模型在实际部署中的安全性。项目支持Python 3.10及以上版本,并提供详细的快速入门指南以帮助用户快速上手。

Python
Other 最后更新 2026年5月24日活跃
237
Stars
50
Forks
35
Watchers
0
Issues

Star 增长

今日0
近 7 天0
近 30 天0
综合评分45.12
默认分支main