
agentic-vbench
PhiloLabs
AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?
AI 简介
AgenticVBench 是一个用于评估AI代理在实际视频后期制作工作流程中表现的100任务基准测试平台,涵盖了组装、修复、排序和再利用四大任务家族。该项目基于Harbor框架构建,支持代理安装、沙盒执行、并发处理以及试运行评分等功能。每个任务由平均拥有6年行业经验的专业人士设计,并通过程序验证器与基于规则的大规模语言模型评判员进行0-1分制打分。特别地,“再利用”任务需要使用GEMINI_API_KEY 和 ANTHROPIC_API_KEY 来调用外部API完成评价。AgenticVBench适用于研究者、开发者及对AI在视频编辑领域应用感兴趣的个人或团队,以帮助他们更好地理解和改进AI代理的能力。
Python
Apache License 2.057
Stars
3
Forks
38
Watchers
0
Issues
Star 增长
今日0
近 7 天0
近 30 天+19
综合评分43.71
默认分支main