[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-1696":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":9,"language":10,"languages":9,"totalLinesOfCode":9,"stars":11,"forks":12,"watchers":13,"openIssues":14,"contributorsCount":15,"subscribersCount":15,"size":15,"stars1d":16,"stars7d":17,"stars30d":18,"stars90d":15,"forks30d":15,"starsTrendScore":19,"compositeScore":20,"rankGlobal":9,"rankLanguage":9,"license":21,"archived":22,"fork":22,"defaultBranch":23,"hasWiki":24,"hasPages":22,"topics":25,"createdAt":9,"pushedAt":9,"updatedAt":33,"readmeContent":34,"aiSummary":35,"trendingCount":15,"starSnapshotCount":15,"syncStatus":36,"lastSyncTime":37,"discoverSource":38},1696,"agent-browser-mcp","335234131\u002Fagent-browser-mcp","335234131","让 Agent 直接操作真实 Chrome 的 MCP 服务，支持页面扫描、CDP、截图与物理输入",null,"Python",228,25,174,1,0,4,8,31,12,59.34,"MIT License",false,"main",true,[26,27,28,29,30,31,32],"ai-agent","automation","browser-automation","cdp","chrome","hermes-agent","mcp","2026-06-12 04:00:11","# agent-browser-mcp\n\n让你的 Agent 直接操作“你正在使用的真实 Chrome”的 MCP 服务。\n\n它不是沙盒浏览器，也不是简单网页抓取器，而是连接你本机已经打开的 Chrome，会保留：\n- 登录状态\n- Cookies\n- 已打开标签页\n- 真实页面上下文\n\n适合这样的场景：\n- 让 Hermes 直接读取你的小红书、后台系统、知识库、管理台页面\n- 对已经登录的网站做自动化，而不是重新登录一个无状态浏览器\n- 在普通浏览器自动化不稳定时，切换到 CDP \u002F 真实鼠标键盘操作\n- 在一个 MCP 工具里同时拥有：页面扫描、JS 执行、CDP 控制、截图、物理输入\n\n一句话概括：\n> 这是一个把“真实浏览器自动化”包装成标准 MCP 的项目，让 Agent 不再只会操作沙盒浏览器，而能真正进入你的日常浏览器工作流。\n\n## 核心能力一览\n\n- 真实 Chrome 标签页发现与切换\n- 页面扫描与简化内容提取\n- 页面内 JavaScript 执行\n- 原生 CDP 单命令 \u002F 批量调用\n- 页面截图 \u002F 桌面截图\n- Cookies 读取\n- 鼠标移动、点击、拖拽\n- 键盘输入与热键\n\n如果你希望让 Hermes、Claude Desktop、Cursor 等 MCP 客户端直接操作你本机真实浏览器，这个项目就是为这个场景准备的。\n\n## 这个 MCP 能做什么\n\n这个项目把真实浏览器自动化能力包装成了标准 MCP 工具，重点能力包括：\n\n### 1. 浏览器标签页与导航\n- 查看当前已连接的真实标签页\n- 切换到指定标签页\n- 在当前标签页打开 URL\n- 新建标签页\n\n### 2. 页面读取\n- 扫描当前页面内容\n- 提取简化后的 HTML \u002F 文本\n- 适合读取信息流、帖子列表、搜索结果页\n\n### 3. 页面执行与 CDP 控制\n- 在页面中执行任意 JavaScript\n- 直接调用 Chrome DevTools Protocol（CDP）\n- 支持单条命令和批量命令\n- 可用于截图、DOM 查询、点击、文件上传等更复杂操作\n\n### 4. 截图能力\n- 页面截图（通过 CDP）\n- 桌面截图（用于辅助真实桌面操作）\n\n### 5. 真实物理输入\n- 鼠标移动\n- 鼠标点击\n- 鼠标拖拽\n- 键盘输入\n- 热键发送\n\n这类能力很适合处理：\n- 必须保留登录态的网站\n- 普通浏览器自动化工具容易被风控的网站\n- 必须使用真实点击 \u002F 真实键盘输入的场景\n- 需要读取复杂页面结构的场景\n\n## 适合哪些场景\n\n例如：\n- 用 Hermes 读取你当前小红书首页推荐流\n- 在真实浏览器里打开后台页面并抓取信息\n- 调用 CDP 截图页面\n- 在页面 JS 不够用时，回退到真实鼠标\u002F键盘操作\n- 让 Agent 直接操作你已登录的网站，而不是重新登录一个无状态浏览器\n\n## 工作原理\n\n项目由三层组成：\n\n1. Chrome 扩展\n- 注入到真实网页\n- 通过 Chrome API 访问 tabs \u002F cookies \u002F debugger \u002F management\n- 与本地桥接服务通信\n\n2. TMWebDriver 本地桥接\n- 默认监听：\n  - WebSocket: `127.0.0.1:18765`\n  - HTTP: `127.0.0.1:18766`\n- 负责连接扩展、维护会话、转发执行结果\n\n3. MCP 服务\n- 把浏览器能力暴露为 MCP tools\n- 供 Hermes、Claude Desktop、Cursor 等客户端直接调用\n\n## 主要工具\n\n当前暴露的主要 MCP 工具包括：\n\n### 浏览器\u002F标签页\n- `get_setup_status`\n- `list_tabs`\n- `switch_tab`\n- `open_url`\n- `open_new_tab`\n- `extension_path`\n- `list_extensions`\n\n### 页面读取\u002F执行\n- `scan_page`\n- `execute_js`\n\n### CDP 与截图\n- `cdp_command`\n- `cdp_batch`\n- `get_cookies`\n- `capture_page_screenshot`\n- `capture_desktop_screenshot`\n\n### 物理输入\n- `mouse_move`\n- `mouse_click`\n- `mouse_drag`\n- `type_text`\n- `hotkey`\n- `pointer_info`\n\n## 安装要求\n\n推荐环境：\n- macOS 或 Windows\n- Python 3.10+\n- Google Chrome\n- 任意支持 MCP 的客户端，例如：\n  - Hermes Agent\n  - Claude Desktop\n  - Cursor\n\n## 安装\n\n在本地克隆后执行：\n\n```bash\ncd agent-browser-mcp\npip install -e .\n```\n\n如果你想先构建 wheel 再安装：\n\n```bash\npython -m pip install --upgrade build\npython -m build\npip install dist\u002Fagent_browser_mcp-0.1.0-py3-none-any.whl\n```\n\n## 命令行工具\n\n安装后会提供一个 CLI：\n\n```bash\nagent-browser-mcp\n```\n\n它有几个常用子命令：\n\n### 输出 Chrome 扩展目录\n\n```bash\nagent-browser-mcp extension-path\n```\n\n### 输出 Hermes 配置片段\n\n```bash\nagent-browser-mcp print-hermes-config\n```\n\n### 环境诊断\n\n```bash\nagent-browser-mcp doctor\n```\n\n这个命令会输出 JSON，帮助你检查：\n- 扩展目录位置\n- `config.js` 是否生成\n- 端口状态\n- 当前连接到的标签页数量\n- 下一步建议\n\n## Chrome 扩展安装\n\n这个项目包含一个 unpacked Chrome 扩展，需要手动加载一次。\n\n### 第一步：获取扩展目录\n\n```bash\nagent-browser-mcp extension-path\n```\n\n### 第二步：在 Chrome 中加载\n\n打开：\n\n```text\nchrome:\u002F\u002Fextensions\n```\n\n然后：\n- 打开“开发者模式”\n- 点击“加载已解压的扩展程序”\n- 选择上一步输出的目录\n\n### 第三步：打开正常网页\n\n注意不要停留在 `about:blank`。\n\n请在 Chrome 中打开一个正常网页，例如：\n- `https:\u002F\u002Fwww.baidu.com`\n- `https:\u002F\u002Fwww.xiaohongshu.com`\n\n否则不会建立有效会话。\n\n## Hermes 配置\n\n把下面这段加到 `~\u002F.hermes\u002Fconfig.yaml`：\n\n```yaml\nmcp_servers:\n  agent_browser:\n    command: agent-browser-mcp\n    timeout: 120\n    connect_timeout: 60\n```\n\n项目里也附带了示例文件：\n- `examples\u002Fhermes-config.yaml`\n\n配置后，重启 Hermes 或重新加载 MCP。\n\n可用下面的命令验证：\n\n```bash\nhermes mcp list\nhermes mcp test agent_browser\n```\n\n如果测试成功，Hermes 就能发现并调用这些浏览器工具。\n\n## Claude Desktop \u002F Cursor 配置\n\n仓库中也放了示例：\n- `examples\u002Fclaude-desktop-config.json`\n- `examples\u002Fcursor-mcp.json`\n\n配置结构都很简单，核心就是：\n\n```json\n{\n  \"mcpServers\": {\n    \"agent_browser\": {\n      \"command\": \"agent-browser-mcp\",\n      \"args\": []\n    }\n  }\n}\n```\n\n## 典型使用流程\n\n1. 安装 Python 包\n2. 在 Chrome 中加载扩展\n3. 打开一个真实网页\n4. 在 MCP 客户端中接入这个服务\n5. 开始调用浏览器工具\n\n例如，Agent 可以做：\n- 打开小红书首页\n- 读取推荐流\n- 扫描帖子列表\n- 对页面进行 CDP 截图\n- 在必要时执行真实鼠标\u002F键盘操作\n\n## 安全提醒\n\n这个项目操作的是你的真实浏览器和真实桌面。\n\n这意味着：\n- 鼠标移动是真的\n- 点击是真的\n- 输入是真的\n- 热键是真的\n- 浏览器里的登录态也是真的\n\n请只在你信任的 MCP 客户端和 Agent 环境中使用。\n\n## 常见问题\n\n### 1. Hermes 能看到 MCP 服务，但没有连接到任何标签页\n\n请检查：\n- 扩展是否已经在 `chrome:\u002F\u002Fextensions` 中加载\n- Chrome 里是否打开了正常网页\n- 是否只是停留在 `about:blank`\n\n你也可以运行：\n\n```bash\nagent-browser-mcp doctor\n```\n\n### 2. `connected_tabs` 为 0\n\n通常是以下原因之一：\n- 扩展没有加载成功\n- 当前没有正常网页\n- 扩展刚重载，页面还没刷新\n\n建议：\n- 刷新当前网页\n- 新开一个正常 URL\n- 再运行一次 `doctor`\n\n### 3. 物理输入在 macOS 上不生效\n\n请给终端 \u002F MCP 客户端授予系统权限：\n- 辅助功能（Accessibility）\n- 屏幕录制（如果你需要桌面截图）\n\n### 4. `hermes mcp test agent_browser` 失败\n\n请检查：\n- 包是否安装成功\n- `agent-browser-mcp` 是否在 PATH 中\n- Hermes 配置是否正确\n- 运行 `agent-browser-mcp doctor` 看诊断输出\n\n## 致谢\n\n这个项目的浏览器自动化能力，是从 GenericAgent 的浏览器栈中提取并重新封装成 MCP 服务的。\n\n特别感谢 GenericAgent 项目及其作者提供的原始实现思路与核心能力来源。\n\n原项目地址：\n- https:\u002F\u002Fgithub.com\u002Flsdefine\u002FGenericAgent\n\n本项目中以下部分来自或改编自 GenericAgent：\n- `TMWebDriver.py`\n- `simphtml.py`\n- `tmwd_cdp_bridge` Chrome 扩展资源\n\n如果你基于本项目继续二次开发或发布，也建议保留对 GenericAgent 的致谢与来源说明。\n\n## 许可证\n\nMIT\n","这是一个让Agent直接操作真实Chrome浏览器的MCP服务项目，支持页面扫描、CDP控制、截图与物理输入。其核心功能包括真实Chrome标签页发现与切换、页面内容提取、JavaScript执行、原生CDP调用、页面和桌面截图以及鼠标键盘的真实物理输入。该项目特别适合需要保留登录状态、Cookies或已打开标签页的自动化任务，尤其是在普通浏览器自动化不稳定时提供更可靠的解决方案。此外，它也非常适用于需要读取复杂页面结构或必须使用真实点击\u002F键盘输入的场景。基于Python开发，并采用MIT许可证发布，可轻松集成到Hermes等MCP客户端中，实现对本机真实浏览器的操作。",2,"2026-06-11 02:45:29","CREATED_QUERY"]