stanford-iris-lab

meta-harness-tbench2-artifact

stanford-iris-lab

Meta-Harness: 76.4% on Terminal-Bench 2.0 (Claude Opus 4.6)

AI 简介

Meta-Harness 是一个针对 Terminal-Bench 2.0 的代理框架,基于 KRAFTON AI 的 Terminus-KIRA 和 Harbor 的 Terminus-2 框架构建。该项目实现了76.4%的得分(89个任务×5次试验,使用Claude Opus 4.6模型)。其核心功能包括环境初始化快照收集,能够自动获取工作目录、文件列表等信息,并将其注入初始提示中,从而节省了早期探索所需的2到5轮交互。Meta-Harness 适用于需要高效执行命令行操作或自动化脚本测试的场景,特别是在评估AI助手在终端环境中解决问题能力时尤为有用。

Python
1.1k
Stars
160
Forks
12
Watchers
1
Issues

Star 增长

今日+6
近 7 天+16
近 30 天+63
综合评分77.92
默认分支main