llm-as-a-verifier

暂无描述

AI 简介

LLM-as-a-Verifier 是一个通用的验证框架，通过细化评分粒度、重复验证和标准分解来提供详细的反馈。该项目使用 Python 编写，核心功能包括对任务轨迹的细粒度评分，并在 Terminal-Bench 2 和 SWE-Bench Verified 上实现了领先性能。适用于需要对大规模语言模型生成的任务轨迹进行验证和评估的场景，如代码生成、文本生成等。用户可以通过简单的命令行操作运行项目中的脚本，以评估不同模型在特定基准测试上的表现。

Python

在 GitHub 查看

402

Stars

Forks

367

Watchers

Issues

Star 增长

今日0

近 7 天+3

近 30 天+32

综合评分43.51

默认分支main