OmniParser

microsoft

A simple screen parsing tool towards pure vision based GUI agent

AI 简介

OmniParser 是一个面向纯视觉 GUI 智能体的屏幕解析工具，将界面截图自动转换为结构化、可交互的 UI 元素（如按钮、文本框、图标）及其坐标与属性。其核心基于轻量级视觉模型，支持高精度交互区域检测、元素可操作性判别及多尺度图标识别，兼容主流多模态大模型（如 GPT-4V、Qwen2.5VL、Claude Computer Use）。适用于构建无需底层 API 接入的端到端 GUI 自动化系统，如桌面应用操作代理、无障碍辅助交互、自动化测试中的视觉定位等场景。

Jupyter Notebook

Creative Commons Attribution 4.0 International

在 GitHub 查看

25k

Stars

2.2k

Forks

181

Watchers

173

Issues

Star 增长

今日0

近 7 天0

近 30 天+51

综合评分75.1

默认分支master

OmniParser

Star 增长

加入交流群