evals

openai

Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.

AI 简介

OpenAI Evals 是一个用于评估大语言模型（LLM）及其应用系统的开源框架，同时提供标准化的评测基准注册中心。它支持开箱即用的公开评测任务（如事实性、推理、安全性等维度），也允许用户基于私有数据定义和运行定制化评测，所有数据保留在本地或可控环境中。框架采用模块化设计，兼容 OpenAI API 及 Weights & Biases 等工具链，便于集成到模型迭代与系统监控流程中。适用于 LLM 产品开发、模型选型、版本对比及企业级 AI 应用质量保障等场景。

Python

Other

在 GitHub 查看

18.9k

Stars

Forks

279

Watchers

126

Issues

Star 增长

今日0

近 7 天0

近 30 天+102

综合评分80

默认分支main

evals

Star 增长

加入交流群