lm-evaluation-harness

EleutherAI

A framework for few-shot evaluation of language models.

AI 简介

这是一个专为大语言模型设计的少样本评估框架，支持统一接口对不同模型进行标准化性能评测。核心功能包括：内置百余个NLP任务（如MMLU、BIG-Bench）、灵活的少样本提示配置、多后端模型支持（HuggingFace、vLLM、SGLang、API等）、YAML配置驱动、Jinja2模板化提示工程及结果后处理能力。技术特点涵盖轻量化安装（按需加载依赖）、多设备兼容（CUDA/MPS）、CoT推理痕迹剥离、多模态任务原型支持。适用于AI研究者、模型开发者在模型选型、迭代优化或公开榜单提交前开展可复现、可对比的基准测试。

Python

MIT License

evaluation-framework language-model transformer

在 GitHub 查看官方网站

13.2k

Stars

3.4k

Forks

Watchers

573

Issues

Star 增长

今日0

近 7 天0

近 30 天+115

综合评分45

默认分支main

lm-evaluation-harness

Star 增长

加入交流群