
simple-evals
openai
暂无描述
AI 简介
simple-evals 是一个轻量级的库,用于评估语言模型。其核心功能包括提供多种基准测试(如MMLU、GPQA、MATH等),并公开了HealthBench、BrowseComp和SimpleQA的参考实现,以确保模型准确性数据的透明度。该库采用Python编写,适合需要对不同规模的语言模型进行性能比较的研究者或开发者使用。尽管项目已宣布不再更新新的模型或基准结果,但仍可作为现有模型评价的重要参考。
Python
MIT License4.5k
Stars
492
Forks
49
Watchers
34
Issues
Star 增长
今日0
近 7 天+10
近 30 天+34
综合评分65.48
默认分支main