microsoft

STATE-Bench

microsoft

Benchmark AI Agents on Enterprise Workflows

AI 简介

STATE-Bench是一个用于评估AI代理在企业工作流程中表现的基准测试框架。它提供了450个跨旅行、客户服务和购物助手三个领域的多步骤任务,每个任务都配备了一个本地沙箱数据库、领域特定工具及模拟用户。核心功能包括多步推理能力评估、政策应用准确性以及与用户的交互过程合规性检查等。采用Python语言开发,并遵循MIT许可证。该项目特别适合于希望在实际业务场景下测试其AI解决方案的企业或研究者使用,尤其是在需要高度上下文理解和复杂决策制定的应用场合。

Python
MIT License
45
Stars
6
Forks
33
Watchers
1
Issues

Star 增长

今日0
近 7 天+5
近 30 天+6
综合评分45.64
默认分支main