UniPat-AI

SaaS-Bench

UniPat-AI

Official repository for SaaS-Bench: realistic, locally deployable SaaS workflows for GUI agent evaluation.

AI 简介

SaaS-Bench是一个用于评估大语言模型代理在真实、本地部署的SaaS应用程序上执行多步骤业务流程能力的基准测试工具。它通过让代理驱动浏览器完成一系列专业工作流(如项目管理、会计、人力资源等),并使用每任务验证器检查运行中应用的状态来评分结果,从而实现对代理性能的准确评估。该项目涵盖了6个领域内的106个任务实例和23个自托管SaaS应用,分为文本仅模式(uni-m)和多媒体模式(multi-m)。适合于研究机构、开发团队或任何希望测试其AI助手在实际软件环境中解决问题能力的情景。采用Python编写,易于扩展与定制新的代理进行测试。

Python
Apache License 2.0
81
Stars
10
Forks
1
Watchers
4
Issues

Star 增长

今日0
近 7 天+2
近 30 天+9
综合评分45.02
默认分支main