trust-eval-mm

pardcomper

Multi-dimensional trustworthiness evaluation for multimodal LLMs

AI 简介

TrustEval-MM 是一个面向多模态大语言模型（MLLM）的多维度可信度评估工具套件。它从真实性、鲁棒性、公平性、校准性与隐私性五个正交维度，通过11个子任务量化模型在图像-文本联合推理中的可信表现，并支持生成可解释的Markdown格式信任卡片。项目基于PyTorch与HuggingFace生态构建，提供命令行与Python API双接口，强调细粒度诊断而非单一分数排名。适用于AI模型研发、安全合规审查及负责任AI部署等场景，帮助开发者识别隐藏风险并支撑模型选型决策。

Python

Other

在 GitHub 查看

132

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分42.86

默认分支main

trust-eval-mm

Star 增长

加入交流群