
lighteval
huggingface
Lighteval is your all-in-one toolkit for evaluating LLMs across multiple backends
AI 简介
Lighteval 是一个全面的工具包,用于在多个后端上评估大型语言模型(LLM)。它支持超过1000个跨领域的评估任务,并允许用户自定义任务和指标以满足特定需求。核心功能包括灵活的任务选择、详细的样本级结果保存与分析,以及对已加载或远程服务中模型的支持。适用于需要深入理解模型性能、进行调试或比较不同模型表现的场景,特别是在知识问答、数学与编程能力测试及聊天模型评估等领域。基于Python开发,采用MIT许可证开源。
Python
MIT License2.4k
Stars
482
Forks
25
Watchers
212
Issues
Star 增长
今日+4
近 7 天+11
近 30 天+31
综合评分76.65
默认分支main