pardcomper

trust-eval-mm

pardcomper

Multi-dimensional trustworthiness evaluation for multimodal LLMs

AI 简介

TrustEval-MM 是一个用于多模态大语言模型的多维度可信度评估工具。它通过五个主要维度(真实性、鲁棒性、公平性、校准性和隐私性)和十一个子任务来全面评价模型的表现,每个子任务得分在0-100之间,并最终汇总成一个总的可信度分数。该工具基于Python 3.10及以上版本开发,依赖PyTorch和HuggingFace Transformers库实现。适合于需要深入理解特定多模态LLM性能特点的研究者或开发者使用,在部署前进行全面的风险评估,确保模型不仅准确而且可靠、公平且保护用户隐私。

Python
Other
132
Stars
8
Forks
6
Watchers
0
Issues

Star 增长

今日0
近 7 天0
近 30 天+87
综合评分51.56
默认分支main