lighteval

huggingface

Lighteval is your all-in-one toolkit for evaluating LLMs across multiple backends

AI 简介

Lighteval 是一个面向大语言模型（LLM）的轻量级、多后端评估工具包，支持本地加载模型和远程 API 服务两种推理模式。其核心功能包括开箱即用的 1000+ 多语言、多领域评测任务（如 MMLU、GSM8K、LCB），细粒度样本级结果导出，以及灵活的自定义任务与指标扩展能力；技术上采用模块化设计，兼容 Hugging Face Transformers、vLLM 等主流推理后端，并提供标准化评估流水线。适用于 LLM 研发、模型选型、榜单提交及学术评测等需要高效、可复现、可调试的评估场景。

Python

MIT License

evaluation evaluation-framework evaluation-metrics huggingface

在 GitHub 查看官方网站

2.5k

Stars

504

Forks

Watchers

215

Issues

Star 增长

今日0

近 7 天0

近 30 天+7

综合评分60.81

默认分支main

lighteval

Star 增长

加入交流群