VibeSearchBench

VibeBench

🔍 The hardest search benchmark in the wild — vague, multi-turn, proactive. 200 long-horizon tasks with persona-driven progressive disclosure, scored by verifiable schema-free knowledge-graph evaluation. No vibes, just triplet F1.

AI 简介

VibeSearchBench 是一个面向真实场景的长周期、多轮次、模糊意图搜索能力评测基准。它包含200个任务，覆盖专业研究与日常生活两大类场景，每个任务基于用户画像驱动的渐进式需求披露机制，要求模型在多轮交互中主动搜索、浏览页面并执行代码，最终生成可验证的知识图谱；评估采用无模式知识图谱匹配与LLM辅助的三元组F1分数，强调语义等价性而非字符串匹配。适用于评估智能体（Agent）在开放域复杂搜索任务中的推理、规划与信息整合能力，尤其适合对话式搜索系统、AI助手及自主代理的研究与开发。

Python

MIT License

在 GitHub 查看

954

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分49.6

默认分支main

VibeSearchBench

Star 增长

加入交流群