
OmniParser
microsoft
A simple screen parsing tool towards pure vision based GUI agent
AI 简介
OmniParser 是一个用于解析用户界面截图的工具,能够将屏幕内容转换为结构化且易于理解的元素。其核心功能包括精细的小图标检测、交互性预测以及支持与多种大型语言模型(如GPT-4V)的集成,显著提升了基于视觉的GUI代理生成精确操作的能力。该项目采用Jupyter Notebook编写,并以Creative Commons Attribution 4.0 International许可证发布。OmniParser特别适用于需要通过视觉识别来控制图形用户界面的应用场景,例如自动化测试、辅助技术开发或是任何需要对UI进行分析和操作的任务。
Jupyter Notebook
Creative Commons Attribution 4.0 International24.9k
Stars
2.2k
Forks
182
Watchers
173
Issues
Star 增长
今日0
近 7 天+29
近 30 天+116
综合评分94.5
默认分支master