
trust-eval-mm
ziyuwowo
Multi-dimensional trustworthiness evaluation for multimodal LLMs
AI 简介
TrustEval-MM 是一个用于多模态大语言模型的多维度可信度评估套件。它通过五个核心维度(真实性、鲁棒性、公平性、校准性和隐私性)和十一个子任务来全面评测模型的性能,每个维度下设多个具体测试项,如POPE、MMLU-MM等,以确保从不同角度考察模型表现。该工具基于Python 3.10及以上版本开发,利用PyTorch与HuggingFace Transformers库实现其功能。适用于需要深入了解特定多模态LLM在复杂场景中实际表现的研究者或开发者,帮助他们识别潜在风险并优化模型设计。最终输出为一个Markdown格式的信任卡片,直观展示各维度得分情况,便于比较分析。
Python
Other140
Stars
8
Forks
10
Watchers
0
Issues
Star 增长
今日0
近 7 天0
近 30 天0
综合评分42.86
默认分支main