agentic-vbench

PhiloLabs

AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

AI 简介

AgenticVBench 是一个面向视频后期制作任务的AI智能体评测基准，包含100个真实工作流任务，覆盖装配、修复、排序和再剪辑四类典型场景。项目基于Harbor框架构建，支持沙箱化执行、并发测试与自动化评分，其中前三类任务采用程序化验证器，再剪辑类任务结合LLM（Gemini/Anthropic）按创意简报进行结构化内容评估。适用于评估多步推理、多模态理解与工具调用能力较强的AI代理系统，尤其适合视频编辑、AIGC内容生成及智能创作工具的研发与对比测试。

Python

Apache License 2.0

ai-agents benchmark harbor llm-evaluation video-editing

在 GitHub 查看官方网站

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+1

综合评分41.91

默认分支main

agentic-vbench

Star 增长

加入交流群