kppox

video-frame-sampler

kppox

Content-aware frame sampling strategies for video-LLMs.

AI 简介

video-frame-sampler 是一个用于视频-语言模型的内容感知帧采样策略库。其核心功能是提供多种内容感知的帧采样方法,如基于场景检测、运动峰值和特征多样性选择等,以替代传统的均匀采样方式。这些策略通过统一接口实现,易于集成和使用。项目支持Python 3.9+,并依赖于FFmpeg,部分高级功能需要GPU支持。适用于视频-语言模型训练与评估场景中,特别是当视频内容包含频繁剪辑或缓慢镜头时,能够显著提升模型性能。例如,在内部测试中,从均匀采样切换到场景感知采样后,LLaVA-Next-V 和 Qwen2-VL 模型的答案准确率分别提高了2.1和1.7个百分点。

Python
Other
222
Stars
4.2k
Forks
6
Watchers
0
Issues

Star 增长

今日0
近 7 天0
近 30 天+187
综合评分60
默认分支main