terminal-bench

harbor-framework

A benchmark for LLMs on complicated tasks in the terminal

AI 简介

terminal-bench 是一个面向终端环境的大型语言模型（LLM）智能体基准测试框架，用于评估AI代理在真实Linux终端中执行复杂、端到端任务的能力。其核心包含结构化任务数据集（如编译代码、训练模型、配置服务器）和可复现的沙箱执行引擎，支持模型与终端交互的自动化评测。采用Python实现，提供CLI工具（tb）和标准化评估协议，强调系统级推理与实际操作能力。适用于AI代理研发、模型能力横向对比、操作系统交互能力验证等研究与工程场景。

Python

Apache License 2.0

在 GitHub 查看官方网站

2.4k

Stars

553

Forks

Watchers

114

Issues

Star 增长

今日0

近 7 天0

近 30 天+41

综合评分64.33

默认分支main

terminal-bench

Star 增长

加入交流群