deepeval

confident-ai

The LLM Evaluation Framework

AI 简介

DeepEval 是一个面向大语言模型（LLM）应用的开源评估框架，用于系统化评测生成式AI系统的质量与可靠性。它提供开箱即用的评估指标（如事实性、相关性、有害性、偏见等），支持自定义测试用例、自动化评估流水线及可视化报告，并兼容主流LLM API与本地模型。框架采用模块化设计，可集成至CI/CD流程，适用于LLM产品开发、RAG系统验证、智能客服效果追踪等场景。

Python

Apache License 2.0

evaluation-framework evaluation-metrics llm-evaluation llm-evaluation-framework llm-evaluation-metrics python

在 GitHub 查看官方网站

16.7k

Stars

1.6k

Forks

Watchers

215

Issues

Star 增长

今日0

近 7 天0

近 30 天+209

综合评分44.63

默认分支main

deepeval

Star 增长

加入交流群