
SaaS-Bench
UniPat-AI
Official repository for SaaS-Bench: realistic, locally deployable SaaS workflows for GUI agent evaluation.
AI 简介
SaaS-Bench是一个用于评估大语言模型代理在真实、本地部署的SaaS应用程序上执行多步骤业务流程能力的基准测试工具。它通过让代理驱动浏览器完成一系列专业工作流(如项目管理、会计、人力资源等),并使用每任务验证器检查运行中应用的状态来评分结果,从而实现对代理性能的准确评估。该项目涵盖了6个领域内的106个任务实例和23个自托管SaaS应用,分为文本仅模式(uni-m)和多媒体模式(multi-m)。适合于研究机构、开发团队或任何希望测试其AI助手在实际软件环境中解决问题能力的情景。采用Python编写,易于扩展与定制新的代理进行测试。
Python
Apache License 2.081
Stars
10
Forks
1
Watchers
4
Issues
Star 增长
今日0
近 7 天+2
近 30 天+9
综合评分45.02
默认分支main