skill

pinchbench

PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. Made with 🦀 by the humans at https://kilo.ai

AI 简介

PinchBench 是一个用于评估大语言模型作为 OpenClaw 编码代理性能的基准测试系统。它通过实际任务来衡量模型在工具使用、多步骤推理、处理现实世界的复杂性和实现实际成果方面的能力，包括日程安排、代码编写、邮件分类、主题研究和文件管理等53项具体任务。该系统采用Python开发，支持多种模型，并要求与OpenClaw实例配合使用。适用于希望深入了解不同AI编码助手在真实世界应用中表现的研究者或开发者。

Python

MIT License

在 GitHub 查看官方网站

1.2k

Stars

138

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+13

近 30 天+86

综合评分69.53

默认分支main