
deep-swe
datacurve-ai
Measuring frontier coding agents on original, long-horizon engineering tasks
AI 简介
DeepSWE 是一个用于评估前沿编码代理在实际长期软件工程项目中的性能的基准测试工具。它覆盖了来自活跃开源仓库的113个任务,涉及TypeScript、Go、Python、JavaScript和Rust五种语言,每个任务都配有独立的环境和基于程序的验证器。该平台通过Harbor框架的任务格式定义任务细节,包括元数据、指令、环境配置、测试脚本及参考解决方案。适用于需要对AI编码能力进行标准化评测的场景,如研究机构、教育领域或企业内部的技术评估。使用Pier框架可以轻松运行这些基准测试,并支持多种主流AI模型,如Claude Code和Codex。
Shell
763
Stars
40
Forks
5
Watchers
27
Issues
Star 增长
今日+26
近 7 天+174
近 30 天+507
综合评分95.84
默认分支main