SaaS-Bench

UniPat-AI

Official repository for SaaS-Bench: realistic, locally deployable SaaS workflows for GUI agent evaluation.

AI 简介

SaaS-Bench是一个用于评估大语言模型代理在真实、本地部署的SaaS应用程序上执行多步骤业务流程能力的基准测试工具。它通过让代理驱动浏览器完成一系列专业工作流（如项目管理、会计、人力资源等），并使用每任务验证器检查运行中应用的状态来评分结果，从而实现对代理性能的准确评估。该项目涵盖了6个领域内的106个任务实例和23个自托管SaaS应用，分为文本仅模式（uni-m）和多媒体模式（multi-m）。适合于研究机构、开发团队或任何希望测试其AI助手在实际软件环境中解决问题能力的情景。采用Python编写，易于扩展与定制新的代理进行测试。

Python

Apache License 2.0

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+2

近 30 天+9

综合评分45.02

默认分支main