
meta-harness-tbench2-artifact
stanford-iris-lab
Meta-Harness: 76.4% on Terminal-Bench 2.0 (Claude Opus 4.6)
AI 简介
Meta-Harness 是一个针对 Terminal-Bench 2.0 的代理框架,基于 KRAFTON AI 的 Terminus-KIRA 和 Harbor 的 Terminus-2 框架构建。该项目实现了76.4%的得分(89个任务×5次试验,使用Claude Opus 4.6模型)。其核心功能包括环境初始化快照收集,能够自动获取工作目录、文件列表等信息,并将其注入初始提示中,从而节省了早期探索所需的2到5轮交互。Meta-Harness 适用于需要高效执行命令行操作或自动化脚本测试的场景,特别是在评估AI助手在终端环境中解决问题能力时尤为有用。
Python
1.1k
Stars
160
Forks
12
Watchers
1
Issues
Star 增长
今日+6
近 7 天+16
近 30 天+63
综合评分77.92
默认分支main