
SWIM
HumanMLLM
Official Code for See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding (CVPR 2026)
AI 简介
SWIM项目旨在通过视觉和语言表征对齐,实现视频中细粒度对象的理解。其核心功能包括基于自然语言引用识别视频中的特定对象,并准确描述该对象的外观、行为及时间动态,同时避免对无关对象产生错误理解。技术上,SWIM采用了注意力层面的监督训练方法,确保模型能够正确地将文本标记与对应的视觉区域关联起来;此外,它还利用了选择性微调策略,仅更新语言模型部分以提高效率。该项目适用于需要从视频内容中提取精确信息的应用场景,如视频分析、智能监控等。
Python
95
Stars
0
Forks
88
Watchers
0
Issues
Star 增长
今日0
近 7 天+6
近 30 天+6
综合评分40.6
默认分支main