pinchbench

skill

pinchbench

PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. Made with 🦀 by the humans at https://kilo.ai

AI 简介

PinchBench 是一个用于评估大语言模型作为 OpenClaw 编码代理性能的基准测试系统。它通过实际任务来衡量模型在工具使用、多步骤推理、处理现实世界的复杂性和实现实际成果方面的能力,包括日程安排、代码编写、邮件分类、主题研究和文件管理等53项具体任务。该系统采用Python开发,支持多种模型,并要求与OpenClaw实例配合使用。适用于希望深入了解不同AI编码助手在真实世界应用中表现的研究者或开发者。

Python
MIT License
1.2k
Stars
138
Forks
10
Watchers
18
Issues

Star 增长

今日0
近 7 天+13
近 30 天+86
综合评分69.53
默认分支main