
bench-loop
outsourc-e
Local-first CLI for benchmarking LLMs on real hardware — quality, speed, reliability, and a real multi-turn agent loop.
AI 简介
BenchLoop 是一个用于在真实硬件上对大型语言模型(LLM)进行基准测试的本地优先命令行工具,它评估模型的质量、速度、可靠性和多轮代理循环等关键性能。项目使用 Python 开发,提供了一套全面的基准测试套件,能够针对质量、速度、可靠性、工具调用、编码和指令执行等多个维度对模型进行评分,并记录每次任务输出、延迟、令牌数量、机器信息及得分情况。适用于需要根据实际应用场景挑选合适的本地或云端 LLM 模型组合的开发者与研究人员,无需注册账户或提交遥测数据即可完成测试并自动发布结果到在线排行榜。
Python
MIT License33
Stars
6
Forks
1
Watchers
0
Issues
Star 增长
今日0
近 7 天+2
近 30 天+2
综合评分43.74
默认分支main