
terminal-bench
harbor-framework
A benchmark for LLMs on complicated tasks in the terminal
AI 简介
Terminal-Bench 是一个用于在真实终端环境中测试AI代理执行复杂任务的基准工具。其核心功能包括一个任务数据集和一个执行框架,后者能够将语言模型与终端沙箱连接起来,评估AI代理处理从代码编译到模型训练等实际任务的能力。该工具采用Python开发,具有良好的可扩展性和社区支持,适用于构建大语言模型代理、评测框架或系统级推理的压力测试。当前版本包含约100个任务,并计划进一步扩展以覆盖更多场景。
Python
Apache License 2.02.3k
Stars
539
Forks
14
Watchers
111
Issues
Star 增长
今日0
近 7 天+21
近 30 天+137
综合评分70.7
默认分支main