openai

evals

openai

Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.

AI 简介

openai/evals 是一个用于评估大型语言模型(LLMs)及其系统的框架,同时提供了一个开源的基准测试库。该项目基于Python开发,支持用户自定义评测标准或使用已有的评测集来测试OpenAI模型的不同维度表现,并允许利用私有数据构建内部评测而不公开任何信息。其核心功能包括配置和运行评测、创建自定义评测以及通过OpenAI Dashboard直接管理评测任务。适用于正在开发基于LLM的应用程序的团队和个人,帮助他们高效地理解不同模型版本对特定应用场景的影响,从而做出更合适的选择。

Python
Other
18.7k
Stars
3k
Forks
278
Watchers
125
Issues

Star 增长

今日+11
近 7 天+58
近 30 天+238
综合评分120
默认分支main