
HyperEyes
DeepExperience
HyperEyes is a parallel multimodal search agent that fuses visual grounding and retrieval into a single atomic action, enabling concurrent search across multiple entities while treating inference efficiency as a first-class training objective.
AI 简介
HyperEyes 是一个并行多模态搜索代理,它将视觉定位和检索融合为单一原子操作,实现对多个实体的并发搜索,并将推理效率视为首要训练目标。项目采用Python语言开发,通过统一的接地搜索(UGS)动作空间,扩展了文本级别的并行性到视觉模态。此外,它引入了一个双粒度效率感知的强化学习框架,包括轨迹级别的TRACE奖励机制和密集的令牌级纠正信号OPD。HyperEyes还设计了一条适用于数据合成的流水线,以及首个专门针对多实体视觉场景下准确性和效率进行评估的IMEB基准。该项目非常适合需要高效处理多模态信息检索的应用场景,如大规模图像数据库搜索、复杂多媒体内容分析等。
Python
60
Stars
0
Forks
52
Watchers
1
Issues
Star 增长
今日+2
近 7 天+5
近 30 天+8
综合评分44.3
默认分支main