
VibeSearchBench
VibeBench
🔍 The hardest search benchmark in the wild — vague, multi-turn, proactive. 200 long-horizon tasks with persona-driven progressive disclosure, scored by verifiable schema-free knowledge-graph evaluation. No vibes, just triplet F1.
AI 简介
VibeSearchBench 是一个用于评估多轮主动搜索任务的基准项目。该项目通过200个涵盖专业研究和日常生活搜索的任务,测试模型在模糊初始查询下的表现,并使用无模式知识图谱进行验证。核心功能包括基于LLM的节点对齐与三元组语义等价性评估、以及支持多轮交互的用户模拟器,能够逐步揭示需求并允许代理执行搜索、页面访问及代码运行等多种操作。适用于需要长时间跨度、个性化驱动的信息检索场景,如市场分析、技术尽职调查或日常购物旅行规划等。
Python
MIT License 最后更新 2026年5月28日活跃878
Stars
12
Forks
2
Watchers
0
Issues
Star 增长
今日+50
近 7 天+206
近 30 天+776
综合评分97.34
默认分支main