bench-loop

outsourc-e

Local-first CLI for benchmarking LLMs on real hardware — quality, speed, reliability, and a real multi-turn agent loop.

AI 简介

BenchLoop 是一个面向本地部署场景的命令行基准测试工具，用于在真实硬件上全面评估大语言模型（LLM）的实际表现。它支持质量、推理速度、可靠性、多轮智能体交互、工具调用、代码能力与指令遵循共七大可复现评测维度，并输出详细指标（如 token/s、延迟、任务输出、硬件信息等）。基于本地优先设计，无需账号或云端依赖，兼容 Ollama、vLLM、MLX 等主流本地推理后端，支持 OpenAI 兼容 API。适用于开发者、研究人员及工程团队在选型本地 LLM 栈（模型+运行时+硬件）时进行可验证、可复现的横向对比。

Python

MIT License

agent benchmark cli evaluation llm local-llm mlx ollama vllm

在 GitHub 查看官方网站

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分42.91

默认分支main

bench-loop

Star 增长

加入交流群