lmms-eval

EvolvingLMMs-Lab

One-for-All Multimodal Evaluation Toolkit Across Text, Image, Video, and Audio Tasks

AI 简介

lmms-eval 是一个面向多模态大语言模型（LMMs）的统一评估工具包，支持文本、图像、视频和音频任务的一致性评测。其核心功能包括标准化评测流程、跨任务可复现指标计算、异步推理与自适应批处理优化，并内置100+评测任务及30+主流模型适配器。技术特点强调结果可复现性、大规模评估效率与细粒度能力分析（如视频时序理解、音频语义对齐等）。适用于AI研究团队对多模态模型开展公平对比、能力诊断或基准测试，尤其适合需在统一框架下验证跨模态泛化性的场景。

Python

Other

agi audio-evaluation benchmark evaluation large-language-models llm-evaluation multimodal multimodal-evaluation video-understanding vision-language-model vlm

在 GitHub 查看官方网站

4.3k

Stars

613

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+34

综合评分63.76

默认分支main

lmms-eval

Star 增长

加入交流群