
skill
pinchbench
PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. Made with 🦀 by the humans at https://kilo.ai
AI 简介
PinchBench 是一个用于评估大语言模型作为 OpenClaw 编码代理性能的基准测试系统。它通过实际任务来衡量模型在工具使用、多步骤推理、处理现实世界的复杂性和实现实际成果方面的能力,包括日程安排、代码编写、邮件分类、主题研究和文件管理等53项具体任务。该系统采用Python开发,支持多种模型,并要求与OpenClaw实例配合使用。适用于希望深入了解不同AI编码助手在真实世界应用中表现的研究者或开发者。
Python
MIT License1.2k
Stars
138
Forks
10
Watchers
18
Issues
Star 增长
今日0
近 7 天+13
近 30 天+86
综合评分69.53
默认分支main