openai

simple-evals

openai

暂无描述

AI 简介

这是一个轻量级语言模型评估库，用于标准化测试大语言模型在多项基准任务上的性能。核心功能包括对MMLU、GPQA、MATH、HumanEval、MGSM、DROP和SimpleQA等主流评测集的统一执行与结果统计，支持快速复现和对比模型能力。技术特点为简洁Python实现、开箱即用的评测脚本、透明公开的基准结果参考实现。适用于AI研究者、模型开发者进行模型选型、性能验证及学术对比分析。

Python

MIT License

在 GitHub 查看

4.6k

Stars

494

Forks

49

Watchers

34

Issues

Star 增长

今日0

近 7 天0

近 30 天+10

综合评分58.08

默认分支main