
Pi-Bench
Simplified-Reasoning
Benchmark for proactive personal assistant agents in long-horizon workflows.
AI 简介
π-Bench是一个用于评估长周期工作流程中主动型个人助理代理性能的基准测试工具。该项目通过100个多轮对话任务,涵盖5个特定领域的角色(如研究员、营销人员等),来衡量代理在处理未明确需求和持续交互时的表现。其核心功能包括评估代理的主动性(PROC)和完整性(COMP),前者关注于代理能否提前识别并解决隐藏意图以减轻用户负担,后者则检查最终交付物是否满足所有要求。技术上,π-Bench使用Python开发,并采用了细致的评分体系确保评价结果的一致性和可靠性。适用于需要长时间协作完成复杂任务的场景,特别是当这些任务涉及多个步骤且用户最初提供的信息不够完整时。
Python
Apache License 2.044
Stars
0
Forks
38
Watchers
0
Issues
Star 增长
今日0
近 7 天+1
近 30 天+2
综合评分40.7
默认分支main