Pi-Bench

Simplified-Reasoning

Benchmark for proactive personal assistant agents in long-horizon workflows.

AI 简介

Pi-Bench 是一个面向主动式个人助理智能体的长周期工作流评估基准。它包含100个多轮任务，覆盖研究员、营销人员、药师、法律实习生和金融从业者5类领域角色，以多会话、持久化工作区形式组织；核心评估维度为‘主动性’（识别并提前解决用户隐含意图）与‘完整性’（满足交付物清单与成果要求），采用基于评分细则的隐含意图判断与结构化检查表验证相结合的评估方法。适用于评估具备长期规划、上下文感知与主动交互能力的AI助手在真实专业场景中的综合表现。

Python

Apache License 2.0

在 GitHub 查看

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分41.1

默认分支main

Pi-Bench

Star 增长

加入交流群