
agent-skills-eval
darkrishabh
A test runner for agentskills.io-style AI agent skills
AI 简介
`agent-skills-eval` 是一个用于评估 AI 代理技能的测试运行器。其核心功能包括通过对比加载技能前后的模型输出,使用评判模型对结果进行评分,并生成详细的侧边报告,帮助开发者验证特定技能是否有效提升了模型在特定任务上的表现。该项目采用 TypeScript 编写,支持 JSONL 和 YAML 格式的配置文件,兼容 OpenAI API,适用于需要验证和优化 AI 代理技能的各种场景,如自然语言处理、对话系统等。简洁的命令行接口设计使得用户能够轻松地将项目集成到现有的开发流程中。
TypeScript
MIT License581
Stars
30
Forks
3
Watchers
1
Issues
Star 增长
今日+16
近 7 天+19
近 30 天+137
综合评分87.97
默认分支main