meta-harness-tbench2-artifact

stanford-iris-lab

Meta-Harness: 76.4% on Terminal-Bench 2.0 (Claude Opus 4.6)

AI 简介

Meta-Harness 是一个面向终端操作任务的智能体（Agent）框架，专为 Terminal-Bench 2.0 基准测试设计。其核心功能是通过环境引导机制（如自动采集工作目录、文件列表、工具链与运行时信息）预填充初始提示，显著减少Agent在沙箱中重复执行探索性命令（如ls、which）的开销；基于Terminus-KIRA和Harbor Terminus-2构建，支持与Claude等大模型集成。适用于终端自动化评测、CLI工具交互能力评估、Agent沙箱行为基准测试等场景。

Python

在 GitHub 查看

1.1k

Stars

164

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+9

综合评分52.55

默认分支main

meta-harness-tbench2-artifact

Star 增长

加入交流群