STATE-Bench

microsoft

Benchmark AI Agents on Enterprise Workflows

AI 简介

STATE-Bench 是一个面向企业级工作流的AI智能体基准测试框架，用于系统性评估智能体在真实业务场景中的多步推理与执行能力。它涵盖旅行、客户支持和购物助手三大领域，共450个任务，每个任务提供沙箱数据库、领域专用工具和模拟用户交互；要求智能体完成信息检索、策略判断、状态更新及流程合规等复合操作。支持主评测轨道（直接评估）和智能体学习轨道（含记忆/技能/提示优化训练支持），采用Task Completion pass@1等四项核心指标量化性能。适用于AI智能体研发、企业级应用验证及大模型代理能力对比研究。

Python

MIT License

ai ai-agents benchmark benchmark-framework microsoft

在 GitHub 查看官方网站

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+4

综合评分43.4

默认分支main

STATE-Bench

Star 增长

加入交流群