GWxuan

AwareVLN

GWxuan

[CVPR 2026] AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation

AI 简介

AwareVLN 是一个用于视觉-语言导航(VLN)的项目,通过在关键导航节点引入稀疏的自我意识推理来增强导航能力。该项目的核心功能包括一个统一的视觉-语言模型(VLM),该模型能够在推理和行动之间切换,并且利用自动数据引擎提供可扩展的监督。技术上,它基于 NaVILA 风格的 VILA 模型(Llama-3 8B + SigLIP + mm_projector, 8 帧)进行微调,以学习自我意识推理。适用于需要提高机器人或虚拟代理在复杂环境中导航效率与准确性的场景,如智能家居、自动驾驶等。

Python
Apache License 2.0
48
Stars
0
Forks
1
Watchers
3
Issues

Star 增长

今日0
近 7 天+3
近 30 天+4
综合评分41.9
默认分支main