harbor-framework

terminal-bench

harbor-framework

A benchmark for LLMs on complicated tasks in the terminal

AI 简介

Terminal-Bench 是一个用于在真实终端环境中测试AI代理执行复杂任务的基准工具。其核心功能包括一个任务数据集和一个执行框架,后者能够将语言模型与终端沙箱连接起来,评估AI代理处理从代码编译到模型训练等实际任务的能力。该工具采用Python开发,具有良好的可扩展性和社区支持,适用于构建大语言模型代理、评测框架或系统级推理的压力测试。当前版本包含约100个任务,并计划进一步扩展以覆盖更多场景。

Python
Apache License 2.0
2.3k
Stars
539
Forks
14
Watchers
111
Issues

Star 增长

今日0
近 7 天+21
近 30 天+137
综合评分70.7
默认分支main