agent-skills-eval

darkrishabh

A test runner for agentskills.io-style AI agent skills

AI 简介

这是一个专为评估 AI 智能体技能（Agent Skills）效果而设计的命令行测试框架。它通过对比同一任务在加载技能与不加载技能两种条件下的模型输出，利用裁判模型（judge model）进行自动化评分，并生成结构化 JSONL/YAML 报告和可视化 HTML 对比报告。项目支持 OpenAI 兼容 API，采用 TypeScript 实现，具备轻量 CLI、可复现基准测试、严格模式与基线对比等核心能力。适用于 AI 工程师在开发、迭代或验证 Agent Skills 标准化技能时进行实证性效果评估。

TypeScript

MIT License

agent-evals agent-skills agentskills ai-agents cli jsonl llm-evals llm-evaluation openai-compatible typescript yaml

在 GitHub 查看官方网站

614

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+11

综合评分49.62

默认分支main

agent-skills-eval

Star 增长

加入交流群