[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-75134":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":10,"languages":10,"totalLinesOfCode":10,"stars":11,"forks":12,"watchers":13,"openIssues":14,"contributorsCount":15,"subscribersCount":15,"size":15,"stars1d":16,"stars7d":17,"stars30d":18,"stars90d":15,"forks30d":15,"starsTrendScore":19,"compositeScore":20,"rankGlobal":10,"rankLanguage":10,"license":21,"archived":22,"fork":22,"defaultBranch":23,"hasWiki":24,"hasPages":22,"topics":25,"createdAt":10,"pushedAt":10,"updatedAt":39,"readmeContent":40,"aiSummary":41,"trendingCount":15,"starSnapshotCount":15,"syncStatus":42,"lastSyncTime":43,"discoverSource":44},75134,"Mano-P","Mininglamp-AI\u002FMano-P","Mininglamp-AI","Mano-P: Open-source GUI-VLA agent for edge devices. #1 on OSWorld (specialized, 58.2%). Runs locally on Apple M4 Mac mini\u002FMacBook — no data leaves your device.Mano-P 是一个开源 GUI-VLA 项目，支持在 Mac mini\u002FMacBook 上或通过算力棒本地运行推理，实现纯视觉驱动的跨平台 GUI 自动化操作。数据完全本地处理，支持复杂多步骤任务规划与执行。","",null,2310,221,19,22,0,24,87,446,72,29.04,"Apache License 2.0",false,"main",true,[26,27,28,29,30,31,32,33,34,35,36,37,38],"computer-use-agents","desktop-automation","edge-computing","gui-automation","gui-grounding","local-inference","mano","mano-p","multimodal-ai","on-device-ai","osworld","vision-language-action","visual-language-model","2026-06-12 02:03:33","\u003Cdiv align=\"center\">\n    \u003Ch1>\n      \u003Cimg src=\".\u002Fpics\u002Flogo.png\" alt=\"Mano-P Logo\" height=\"60\" style=\"vertical-align: -15px;\">\n      Mano-P 1.0\n    \u003C\u002Fh1>\n    \u003Cp>\u003Cstrong>GUI-Aware Agent Model for Edge Devices\u003C\u002Fstrong>\u003C\u002Fp>\n    \u003Cp>\u003Cstrong>Private AI\u003C\u002Fstrong>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\u003Chr>\n\n\u003Cdiv align=\"center\">\n\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue.svg)](LICENSE)\n[![GitHub Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FMininglamp-AI\u002FMano-P?style=social)](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002FMano-P)\n[![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Technical%20Report-red?logo=arxiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.17336)\n\n\u003Ca href=\"README_CN.md\">中文\u003C\u002Fa> | English\n\n**[📖 Overview](#-overview) | [🎯 Key Highlights](#-key-highlights) | [🎬 Use Cases](#-use-case-demonstrations) | [📊 Benchmark](#-benchmark-performance) | [🔧 Skills](#-skills) | [🤖 Models](#-models) | [⚡ Inference SDK](#-inference-sdk) | [⚗️ Approach](#-approach) | [🌟 Technical Advantages](#-technical-advantages) | [🔗 Applications](#-applications) | [📄 Citation](#-technical-papers--citation) | [❓ FAQ](#-faq)**\n\n\u003C\u002Fdiv>\n\n---\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fccnt9oddmvfr.feishu.cn\u002Fwiki\u002FQUwbwmUwriHdL4kkyqPcWNaPn9c\" target=\"_blank\">\n    \u003Cimg src=\"pics\u002FBenchmark_Overview.png\" alt=\"GUI Agent Grounding Benchmark\" style=\"max-width: 100%; height: auto;\">\n  \u003C\u002Fa>\n\u003C\u002Fdiv>\n\n---\n\n## 📖 Overview\n\n**Mano-P**: \"Mano\" means \"hand\" in Spanish, and \"P\" stands for Private. We believe that both individuals and organizations can create their own Private AI, and a bright future of human-machine collaboration is on the horizon.\n\n![opensource_architecture.png](pics\u002Fopensource_architecture_en.png)\n\n**Mano-P** is a GUI-VLA agent project designed specifically for edge devices. It serves both as an open-source project and a hardware product solution.\nAs an open-source project, Mano-P is being released in a phased, progressive manner, targeting three distinct groups of developers. In the first phase, we will open-source the Mano-CUA Skills. This phase is aimed at Agent enthusiasts—such as users of OpenClaw or Claude Code—enabling them to leverage the capabilities of Mano-CUA Skills to construct more intelligent CUA task workflows and overcome the bottlenecks associated with human intervention. In the second phase, we will open-source the local-side models and SDK components of Mano-CUA. This phase targets developers with high security requirements, allowing them to directly utilize GUI-VLA models capable of running inference locally on a Mac mini to build their own custom Skills, Tools, and more; **crucially, all your CUA operations will be executed entirely on your local Mac mini and will not be uploaded to external servers.** In the third phase, we will open-source the training methodologies and the pruning and quantization techniques used for the Mano-P models. This phase is designed for developers with specific model training needs, empowering them to apply our training methods to create their own on-device GUI-VLA models tailored to their unique requirements.\n\nRegarding our GUI-VLA models—which are capable of running inference directly on Mac mini and MacBook devices—we currently support two deployment methods: First, direct deployment on Mac mini or MacBook models equipped with an M4 chip and 32GB or more of RAM; and second, deployment utilizing a compute stick connected via a USB 4.0 port or higher. We will be releasing detailed instructions for both deployment methods in the near future, and we plan to expand our support to include additional deployment options in the future.\n\n### Main Capabilities\n\n- **Complex GUI Automation**: Autonomously complete complex interface operations containing hundreds of interactive elements\n- **Cross-System Data Integration**: Extract and integrate multi-source data through pure visual interaction without API interfaces\n- **Long-Task Planning Execution**: Support enterprise-level business process automation of dozens to hundreds of steps\n- **Intelligent Report Generation**: Automatically generate structured documents such as data analysis reports and work summaries\n- **Edge-Native Inference**: Efficient on-device execution on Apple Silicon via INT8 activation quantization ([Cider](#-inference-sdk))\n- **Autonomous Application Construction**: Drives end-to-end software construction pipelines through visual GUI operation ([Mano-AFK](#-applications))\n\n### Technical Background\n\nMano-P builds upon the complete technical framework of the Mano project (see [Mano Technical Report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.17336)), employing the Mano-Action bidirectional self-reinforcement learning method, three-stage progressive training (SFT → Offline Reinforcement Learning → Online Reinforcement Learning), \"think-act-verify\" loop reasoning mechanism, and a closed-loop data circulation system to achieve high-precision GUI understanding and operation capabilities. The edge version is optimized through mixed-precision quantization, visual token pruning, and edge inference adaptation, enabling large-scale parameter models to run efficiently on edge devices like Mac mini\u002FMacBook\u002Fcomputing sticks.\n\n## 🎯 Key Highlights\n\n- **#1 on OSWorld Benchmark**: Mano-P 1.0-72B achieves **58.2% success rate on OSWorld**, ranking first among all specialized GUI agent models, outperforming the second-place opencua-72b (45.0%) by 13.2 percentage points\n- **Leading on WebRetriever Protocol I**: Mano-P 1.0 scores **41.7 NavEval**, surpassing Gemini 2.5 Pro Computer Use (40.9) and Claude 4.5 Computer Use (31.3)\n- **Fully Local Execution**: Runs inference locally on **Apple M4 chip with 32GB RAM** (Mac mini or MacBook). No cloud API calls required. All screenshots and task data stay on-device\n- **High-Performance Inference**: Mano-P 1.0-4B achieves **~80 tokens\u002Fs decode** on Apple M5 Pro; with Cider's W8A8 activation quantization, prefill speeds up by **~12.7%** over the W8A16 baseline\n- **Autonomous Long-Task Execution**: Supports **complex business processes** with end-to-end automation without internet connectivity\n- **Edge-Native INT8 Acceleration**: Companion [Cider](#-inference-sdk) SDK adds the W8A8 \u002F W4A8 activation-quantization primitives MLX lacks natively, delivering **1.4x–2.2x prefill speedup** over MLX W4A16 on Apple M5 Pro — works with any MLX model, not just Mano-P\n- **Autonomous Software Construction**: [Mano-AFK](#-applications) drives a full PRD → code → deploy → test → fix loop using Mano-P as its local vision model for real-browser E2E testing — from a single natural-language prompt to a deployed, tested application, no human in the loop\n\n---\n\n## 🎬 Use Case Demonstrations\n\n### Scenario 1: Mano-AFK Fully automated application construction\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F8512ab65-f836-4779-979a-4c636fe61fd2\n\nWe demonstrated the fully automated application construction process of [Mano-AFK](#-applications). After receiving natural language requirements, the system sequentially completes requirement clarification, technical architecture design, code generation, local deployment, and multi-level testing (API interface testing, LLM based page visual inspection, and end-to-end GUI automation testing driven by VLA model). When the test fails, the system automatically locates the root cause of the problem, fixes the code, and deploys verification again, iterating until all test cases pass. The entire process does not require manual intervention, and ultimately delivers a runnable application with complete requirement documents and build reports.\n\n[![Watch on YouTube](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWatch%20on-YouTube-red?logo=youtube)](https:\u002F\u002Fyoutu.be\u002FT2QeXOOvRBQ?si=-I1HDmmtWNeKmg5Q)\n\n### Scenario 2: Commercial video intelligent system\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F04730188-e664-4f92-8ba7-023269880718\n\nWe fully demonstrated the actual workflow of a commercial video intelligent system. Starting from the user's command, the system automatically completes the entire process of video generation, uploading, analysis, editing, and secondary evaluation. During the process, the system can autonomously operate web pages and editing software, complete fine operations such as file processing and subtitle modification, and generate analysis reports containing subjective evaluations and objective indicators. By comparing the differences between the initial and refined versions, visually present the overall capabilities and application effects of the system.\n\n[![Watch on YouTube](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWatch%20on-YouTube-red?logo=youtube)](https:\u002F\u002Fyoutu.be\u002Fg4sXOTtNPbo?si=RmV5wLLlI1u4e7Nj)\n\n### Scenario 3: Local model task execution\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F992f4961-3028-45c9-a7c2-29a8e5bf93a9\n\nMano-P, The small-sized end side GUI-VLA model can run directly on your computer, supporting direct inference operation on Macmini\u002FMacbook with M4 chip and above, as well as direct operation on plug and play computing power sticks. In the CUA scenario, break through the bottleneck of human participation in the Agent workflow. Mano-P, The first step in leading Private AI.\n\n[![Watch on YouTube](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWatch%20on-YouTube-red?logo=youtube)](https:\u002F\u002Fyoutu.be\u002FVyHhsO1HFpg)\n\n### Scenario 4: Daily Life and Entertainment Applications\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fff11fd5b-9ee7-4a74-b8e6-3ad3071d3af8\n\nMano-P excels not only in enterprise-level business automation but also integrates seamlessly into daily life. This video demonstrates the system's application in Mahjong gameplay: through pure visual understanding of the game interface, it autonomously completes tile recognition, analysis, and decision-making. This case validates Mano-P's general-purpose capabilities beyond work scenarios—from office automation to leisure entertainment, from structured data processing to unstructured game interactions, truly realizing the vision of \"Private AI.\" One model, adapting to every aspect of life and work.\n\n[![Watch on YouTube](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWatch%20on-YouTube-red?logo=youtube)](https:\u002F\u002Fyoutu.be\u002FP4-wE3p7mB8)\n\n### Scenario 5: Mano-AFK × Cider Locally-Accelerated End-to-End App Construction\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fb987f367-5c47-4659-890b-3e8a6e741603\n\nThis video demonstrates the combined capability of [Mano-AFK](#-applications) and the [Cider](#-inference-sdk) inference acceleration SDK. Starting from a single natural-language requirement, Mano-AFK autonomously performs requirement clarification, architecture design, code generation, and local deployment. In the E2E testing stage it drives a real browser through the local Mano-P vision model — accelerated by Cider — to run GUI automation tests; on failure, it localizes the defect, patches the code, and re-verifies until a runnable application is delivered. Cider supplies the INT8 activation-quantization primitives that give Mano-P a substantial prefill speedup on Apple Silicon, so the entire build–test–fix loop runs fully on-device, balancing autonomy, privacy, and performance.\n\n[![Watch on YouTube](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWatch%20on-YouTube-red?logo=youtube)](https:\u002F\u002Fyoutu.be\u002FPK-QYjiAkb8)\n\n---\n\n## 📊 Benchmark Performance\n\n**Performance of the Mano series models in multiple benchmarks:**\n\n### 1. GUI Grounding\n\n\u003Cdetails>\n\u003Csummary>📊 Expand Evaluation Data\u003C\u002Fsummary>\n\u003Cbr>\n\n![GUI Agent Grounding Benchmark](.\u002Fpics\u002FGUI_Agent_Grounding_Benchmark.png)\n\n\u003C\u002Fdetails>\n\n### 2. BUA & CUA\n\n\u003Cdetails>\n\u003Csummary>📊 Expand Evaluation Data\u003C\u002Fsummary>\n\n#### [OSWorld](https:\u002F\u002Fos-world.github.io\u002F) - Specialized Models\n\n![OS-World-Verified-Specialized-Model.png](pics\u002FOS-World-Verified-Specialized-Model.png)\n\n#### [OSWorld](https:\u002F\u002Fos-world.github.io\u002F) - All Models\n\n![OS-World-Verified-All-Model.png](pics\u002FOS-World-Verified-All-Model.png)\n\n#### [WebRetriever](https:\u002F\u002Fgithub.com\u002Fhhhhhhalf\u002FWebRetriever)\n\n![WebRetriever.png](pics\u002FWebRetriever.png)\n\n\u003C\u002Fdetails>\n\n### 3. Perception & Cognition\n\n\u003Cdetails>\n\u003Csummary>📊 Expand Evaluation Data\u003C\u002Fsummary>\n\n#### Video-SME-2\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">Models\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">Protocol\u003C\u002Fth>\n      \u003Cth colspan=\"2\">CA\u003C\u002Fth>\n      \u003Cth colspan=\"2\">CV\u003C\u002Fth>\n      \u003Cth colspan=\"2\">PAR\u003C\u002Fth>\n      \u003Cth colspan=\"5\">Saliency\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>Acc\u003C\u002Fth>\n      \u003Cth>F1\u003C\u002Fth>\n      \u003Cth>Acc\u003C\u002Fth>\n      \u003Cth>F1\u003C\u002Fth>\n      \u003Cth>Acc\u003C\u002Fth>\n      \u003Cth>F1\u003C\u002Fth>\n      \u003Cth>KL↓\u003C\u002Fth>\n      \u003Cth>CC↑\u003C\u002Fth>\n      \u003Cth>SIM↑\u003C\u002Fth>\n      \u003Cth>NSS↑\u003C\u002Fth>\n      \u003Cth>AUC↑\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Random\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>10.42\u003C\u002Ftd>\n      \u003Ctd>11.03\u003C\u002Ftd>\n      \u003Ctd>10.76\u003C\u002Ftd>\n      \u003Ctd>10.95\u003C\u002Ftd>\n      \u003Ctd>15.94\u003C\u002Ftd>\n      \u003Ctd>16.00\u003C\u002Ftd>\n      \u003Ctd>2.1789\u003C\u002Ftd>\n      \u003Ctd>0.0452\u003C\u002Ftd>\n      \u003Ctd>0.2852\u003C\u002Ftd>\n      \u003Ctd>0.1081\u003C\u002Ftd>\n      \u003Ctd>0.5340\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>10.01\u003C\u002Ftd>\n      \u003Ctd>10.74\u003C\u002Ftd>\n      \u003Ctd>10.32\u003C\u002Ftd>\n      \u003Ctd>10.50\u003C\u002Ftd>\n      \u003Ctd>14.39\u003C\u002Ftd>\n      \u003Ctd>15.04\u003C\u002Ftd>\n      \u003Ctd>4.3378\u003C\u002Ftd>\n      \u003Ctd>0.0270\u003C\u002Ftd>\n      \u003Ctd>0.2274\u003C\u002Ftd>\n      \u003Ctd>0.0665\u003C\u002Ftd>\n      \u003Ctd>0.5273\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd colspan=\"13\" align=\"center\">\u003Cstrong>Zero-shot for MLLMs\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">GPT4o\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>15.17\u003C\u002Ftd>\n      \u003Ctd>6.57\u003C\u002Ftd>\n      \u003Ctd>16.11\u003C\u002Ftd>\n      \u003Ctd>9.58\u003C\u002Ftd>\n      \u003Ctd>16.71\u003C\u002Ftd>\n      \u003Ctd>10.34\u003C\u002Ftd>\n      \u003Ctd>1.9423\u003C\u002Ftd>\n      \u003Ctd>0.4660\u003C\u002Ftd>\n      \u003Ctd>0.4602\u003C\u002Ftd>\n      \u003Ctd>1.2842\u003C\u002Ftd>\n      \u003Ctd>0.7848\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>10.26\u003C\u002Ftd>\n      \u003Ctd>4.77\u003C\u002Ftd>\n      \u003Ctd>12.16\u003C\u002Ftd>\n      \u003Ctd>7.66\u003C\u002Ftd>\n      \u003Ctd>15.00\u003C\u002Ftd>\n      \u003Ctd>8.55\u003C\u002Ftd>\n      \u003Ctd>2.2650\u003C\u002Ftd>\n      \u003Ctd>0.4097\u003C\u002Ftd>\n      \u003Ctd>0.4028\u003C\u002Ftd>\n      \u003Ctd>1.2418\u003C\u002Ftd>\n      \u003Ctd>0.7807\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Gemini 2.0 Flash\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>17.18\u003C\u002Ftd>\n      \u003Ctd>5.13\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>25.06\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>8.39\u003C\u002Ftd>\n      \u003Ctd>24.94\u003C\u002Ftd>\n      \u003Ctd>9.52\u003C\u002Ftd>\n      \u003Ctd>1.4726\u003C\u002Ftd>\n      \u003Ctd>0.3380\u003C\u002Ftd>\n      \u003Ctd>0.3751\u003C\u002Ftd>\n      \u003Ctd>0.8629\u003C\u002Ftd>\n      \u003Ctd>0.7296\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>10.45\u003C\u002Ftd>\n      \u003Ctd>4.26\u003C\u002Ftd>\n      \u003Ctd>12.60\u003C\u002Ftd>\n      \u003Ctd>4.95\u003C\u002Ftd>\n      \u003Ctd>15.96\u003C\u002Ftd>\n      \u003Ctd>7.90\u003C\u002Ftd>\n      \u003Ctd>1.6373\u003C\u002Ftd>\n      \u003Ctd>0.3542\u003C\u002Ftd>\n      \u003Ctd>0.3490\u003C\u002Ftd>\n      \u003Ctd>1.0027\u003C\u002Ftd>\n      \u003Ctd>0.7590\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">GPT-5.2\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>17.83\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>7.67\u003C\u002Ftd>\n      \u003Ctd>22.22\u003C\u002Ftd>\n      \u003Ctd>12.55\u003C\u002Ftd>\n      \u003Ctd>16.17\u003C\u002Ftd>\n      \u003Ctd>9.74\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>1.3262\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>0.4852\u003C\u002Ftd>\n      \u003Ctd>0.4632\u003C\u002Ftd>\n      \u003Ctd>1.3078\u003C\u002Ftd>\n      \u003Ctd>0.7969\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>15.31\u003C\u002Ftd>\n      \u003Ctd>5.14\u003C\u002Ftd>\n      \u003Ctd>19.88\u003C\u002Ftd>\n      \u003Ctd>10.27\u003C\u002Ftd>\n      \u003Ctd>13.56\u003C\u002Ftd>\n      \u003Ctd>7.42\u003C\u002Ftd>\n      \u003Ctd>1.5444\u003C\u002Ftd>\n      \u003Ctd>0.4379\u003C\u002Ftd>\n      \u003Ctd>0.4092\u003C\u002Ftd>\n      \u003Ctd>1.3006\u003C\u002Ftd>\n      \u003Ctd>0.7999\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Claude Sonnet 4.5\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>10.34\u003C\u002Ftd>\n      \u003Ctd>5.8\u003C\u002Ftd>\n      \u003Ctd>13.26\u003C\u002Ftd>\n      \u003Ctd>9.84\u003C\u002Ftd>\n      \u003Ctd>16.02\u003C\u002Ftd>\n      \u003Ctd>9.94\u003C\u002Ftd>\n      \u003Ctd>1.4235\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>0.4912\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>0.4213\u003C\u002Ftd>\n      \u003Ctd>1.2956\u003C\u002Ftd>\n      \u003Ctd>0.8042\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>10.34\u003C\u002Ftd>\n      \u003Ctd>5.55\u003C\u002Ftd>\n      \u003Ctd>13.27\u003C\u002Ftd>\n      \u003Ctd>7.08\u003C\u002Ftd>\n      \u003Ctd>16.02\u003C\u002Ftd>\n      \u003Ctd>9.6\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>1.2855\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>0.4564\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>0.4781\u003C\u002Ftd>\n      \u003Ctd>1.3112\u003C\u002Ftd>\n      \u003Ctd>0.7915\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Llama 4 Scout\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>13.98\u003C\u002Ftd>\n      \u003Ctd>9.96\u003C\u002Ftd>\n      \u003Ctd>10.25\u003C\u002Ftd>\n      \u003Ctd>6.51\u003C\u002Ftd>\n      \u003Ctd>13.27\u003C\u002Ftd>\n      \u003Ctd>8.11\u003C\u002Ftd>\n      \u003Ctd>3.7166\u003C\u002Ftd>\n      \u003Ctd>0.3331\u003C\u002Ftd>\n      \u003Ctd>0.3849\u003C\u002Ftd>\n      \u003Ctd>0.8828\u003C\u002Ftd>\n      \u003Ctd>0.7238\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>10.00\u003C\u002Ftd>\n      \u003Ctd>7.33\u003C\u002Ftd>\n      \u003Ctd>11.10\u003C\u002Ftd>\n      \u003Ctd>8.49\u003C\u002Ftd>\n      \u003Ctd>14.35\u003C\u002Ftd>\n      \u003Ctd>7.42\u003C\u002Ftd>\n      \u003Ctd>3.7434\u003C\u002Ftd>\n      \u003Ctd>0.3019\u003C\u002Ftd>\n      \u003Ctd>0.3452\u003C\u002Ftd>\n      \u003Ctd>0.8848\u003C\u002Ftd>\n      \u003Ctd>0.7258\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen2.5-VL-7B\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>15.88\u003C\u002Ftd>\n      \u003Ctd>5.21\u003C\u002Ftd>\n      \u003Ctd>10.07\u003C\u002Ftd>\n      \u003Ctd>6.07\u003C\u002Ftd>\n      \u003Ctd>12.26\u003C\u002Ftd>\n      \u003Ctd>4.96\u003C\u002Ftd>\n      \u003Ctd>12.0586\u003C\u002Ftd>\n      \u003Ctd>0.0999\u003C\u002Ftd>\n      \u003Ctd>0.2154\u003C\u002Ftd>\n      \u003Ctd>0.2578\u003C\u002Ftd>\n      \u003Ctd>0.5852\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>10.25\u003C\u002Ftd>\n      \u003Ctd>3.95\u003C\u002Ftd>\n      \u003Ctd>10.89\u003C\u002Ftd>\n      \u003Ctd>5.83\u003C\u002Ftd>\n      \u003Ctd>14.39\u003C\u002Ftd>\n      \u003Ctd>5.73\u003C\u002Ftd>\n      \u003Ctd>12.7596\u003C\u002Ftd>\n      \u003Ctd>0.0762\u003C\u002Ftd>\n      \u003Ctd>0.1855\u003C\u002Ftd>\n      \u003Ctd>0.2195\u003C\u002Ftd>\n      \u003Ctd>0.5753\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">InternVL3-8B\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>13.35\u003C\u002Ftd>\n      \u003Ctd>7.78\u003C\u002Ftd>\n      \u003Ctd>14.71\u003C\u002Ftd>\n      \u003Ctd>8.02\u003C\u002Ftd>\n      \u003Ctd>10.20\u003C\u002Ftd>\n      \u003Ctd>6.95\u003C\u002Ftd>\n      \u003Ctd>12.6480\u003C\u002Ftd>\n      \u003Ctd>0.0572\u003C\u002Ftd>\n      \u003Ctd>0.1895\u003C\u002Ftd>\n      \u003Ctd>0.1140\u003C\u002Ftd>\n      \u003Ctd>0.5769\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>10.58\u003C\u002Ftd>\n      \u003Ctd>6.70\u003C\u002Ftd>\n      \u003Ctd>10.94\u003C\u002Ftd>\n      \u003Ctd>8.12\u003C\u002Ftd>\n      \u003Ctd>12.68\u003C\u002Ftd>\n      \u003Ctd>6.32\u003C\u002Ftd>\n      \u003Ctd>12.1385\u003C\u002Ftd>\n      \u003Ctd>0.0604\u003C\u002Ftd>\n      \u003Ctd>0.1819\u003C\u002Ftd>\n      \u003Ctd>0.1395\u003C\u002Ftd>\n      \u003Ctd>0.5859\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd colspan=\"13\" align=\"center\">\u003Cstrong>Fine-tune for MLLMs\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen2.5-VL-7B\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>22.51\u003C\u002Ftd>\n      \u003Ctd>19.11\u003C\u002Ftd>\n      \u003Ctd>23.39\u003C\u002Ftd>\n      \u003Ctd>10.83\u003C\u002Ftd>\n      \u003Ctd>32.06\u003C\u002Ftd>\n      \u003Ctd>25.88\u003C\u002Ftd>\n      \u003Ctd>1.5091\u003C\u002Ftd>\n      \u003Ctd>0.6953\u003C\u002Ftd>\n      \u003Ctd>0.6118\u003C\u002Ftd>\n      \u003Ctd>1.8937\u003C\u002Ftd>\n      \u003Ctd>0.8579\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>13.72\u003C\u002Ftd>\n      \u003Ctd>13.25\u003C\u002Ftd>\n      \u003Ctd>13.03\u003C\u002Ftd>\n      \u003Ctd>10.94\u003C\u002Ftd>\n      \u003Ctd>21.24\u003C\u002Ftd>\n      \u003Ctd>20.65\u003C\u002Ftd>\n      \u003Ctd>2.2496\u003C\u002Ftd>\n      \u003Ctd>0.5359\u003C\u002Ftd>\n      \u003Ctd>0.4793\u003C\u002Ftd>\n      \u003Ctd>1.6439\u003C\u002Ftd>\n      \u003Ctd>0.8221\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">InternVL3-8B\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>20.94\u003C\u002Ftd>\n      \u003Ctd>18.41\u003C\u002Ftd>\n      \u003Ctd>21.96\u003C\u002Ftd>\n      \u003Ctd>11.02\u003C\u002Ftd>\n      \u003Ctd>30.33\u003C\u002Ftd>\n      \u003Ctd>24.66\u003C\u002Ftd>\n      \u003Ctd>1.2551\u003C\u002Ftd>\n      \u003Ctd>0.7014\u003C\u002Ftd>\n      \u003Ctd>0.6340\u003C\u002Ftd>\n      \u003Ctd>1.9896\u003C\u002Ftd>\n      \u003Ctd>0.8670\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>12.81\u003C\u002Ftd>\n      \u003Ctd>11.83\u003C\u002Ftd>\n      \u003Ctd>12.16\u003C\u002Ftd>\n      \u003Ctd>11.11\u003C\u002Ftd>\n      \u003Ctd>19.26\u003C\u002Ftd>\n      \u003Ctd>19.27\u003C\u002Ftd>\n      \u003Ctd>1.8759\u003C\u002Ftd>\n      \u003Ctd>0.6282\u003C\u002Ftd>\n      \u003Ctd>0.5467\u003C\u002Ftd>\n      \u003Ctd>2.0621\u003C\u002Ftd>\n      \u003Ctd>0.8627\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd colspan=\"13\" align=\"center\">\u003Cstrong>Mano-P 1.0\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Stage I\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>31.27\u003C\u002Ftd>\n      \u003Ctd>30.53\u003C\u002Ftd>\n      \u003Ctd>27.31\u003C\u002Ftd>\n      \u003Ctd>25.18\u003C\u002Ftd>\n      \u003Ctd>35.16\u003C\u002Ftd>\n      \u003Ctd>34.45\u003C\u002Ftd>\n      \u003Ctd>0.6794\u003C\u002Ftd>\n      \u003Ctd>0.7670\u003C\u002Ftd>\n      \u003Ctd>0.7015\u003C\u002Ftd>\n      \u003Ctd>2.1347\u003C\u002Ftd>\n      \u003Ctd>0.8710\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>21.89\u003C\u002Ftd>\n      \u003Ctd>22.06\u003C\u002Ftd>\n      \u003Ctd>18.27\u003C\u002Ftd>\n      \u003Ctd>18.57\u003C\u002Ftd>\n      \u003Ctd>23.77\u003C\u002Ftd>\n      \u003Ctd>23.87\u003C\u002Ftd>\n      \u003Ctd>1.5759\u003C\u002Ftd>\n      \u003Ctd>0.6482\u003C\u002Ftd>\n      \u003Ctd>0.6167\u003C\u002Ftd>\n      \u003Ctd>2.1021\u003C\u002Ftd>\n      \u003Ctd>0.8627\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Stage II\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>32.59\u003C\u002Ftd>\n      \u003Ctd>31.46\u003C\u002Ftd>\n      \u003Ctd>27.57\u003C\u002Ftd>\n      \u003Ctd>25.76\u003C\u002Ftd>\n      \u003Ctd>37.73\u003C\u002Ftd>\n      \u003Ctd>35.79\u003C\u002Ftd>\n      \u003Ctd>0.6736\u003C\u002Ftd>\n      \u003Ctd>0.7686\u003C\u002Ftd>\n      \u003Ctd>0.7120\u003C\u002Ftd>\n      \u003Ctd>2.1688\u003C\u002Ftd>\n      \u003Ctd>0.8853\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>20.55\u003C\u002Ftd>\n      \u003Ctd>21.26\u003C\u002Ftd>\n      \u003Ctd>15.37\u003C\u002Ftd>\n      \u003Ctd>15.15\u003C\u002Ftd>\n      \u003Ctd>25.36\u003C\u002Ftd>\n      \u003Ctd>25.83\u003C\u002Ftd>\n      \u003Ctd>0.5617\u003C\u002Ftd>\n      \u003Ctd>0.6440\u003C\u002Ftd>\n      \u003Ctd>0.6130\u003C\u002Ftd>\n      \u003Ctd>2.1090\u003C\u002Ftd>\n      \u003Ctd>0.8602\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Stage III\u003C\u002Ftd>\n      \u003Ctd>P1\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>34.58\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>33.99\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>31.92\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>28.37\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>39.42\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>37.63\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.6073\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.7853\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.7248\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>2.2103\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.8938\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>P2\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>25.29\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>25.83\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>20.21\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>19.29\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>26.49\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>26.54\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>1.4617\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.6725\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.6330\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>2.1788\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>0.8776\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### MIT1003 & SalECI\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: center;\">Dataset\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: center;\">Method\u003C\u002Fth>\n      \u003Cth colspan=\"5\" style=\"text-align: center;\">Saliency\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">KL↓\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">CC↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">SIM↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">NSS↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">AUC↑\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"7\" style=\"text-align: left;\">MIT1003\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">FastSal\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.036\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.590\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.478\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.008\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.875\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">SAM-Resnet\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.247\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.746\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.597\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.752\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.902\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">DAV\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.753\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.699\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.566\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.574\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.897\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">UNISAL\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.014\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.734\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.597\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.759\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.902\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Transalnet\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.660\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.722\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.592\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.631\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.903\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">SUM\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.563\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.768\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.630\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.839\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.913\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>Mano-P 1.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.648\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.770\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.698\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>2.950\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.902\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"7\" style=\"text-align: left;\">SalECI\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">SSM\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.720\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.599\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.611\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.396\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.830\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">DeepGaze IIE\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.995\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.560\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.399\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.327\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.842\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">EML-NET\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.220\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.510\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.536\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.232\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.807\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Transalnet\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.873\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.717\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.534\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.723\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.824\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Temp-Sal\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.712\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.719\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.629\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.768\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.813\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">SSwinTransformer\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.652\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.687\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.606\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.701\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.868\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>Mano-P 1.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.615\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.769\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.695\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.735\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.868\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### ETMD\n\n##### **Saliency Metrics**\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: left;\">Methods\u003C\u002Fth>\n      \u003Cth colspan=\"4\" style=\"text-align: center;\">Saliency\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">CC ↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">SIM ↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">NSS ↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">AUC ↑\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ACLNet\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.477\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.329\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.36\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.915\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">TASED-Net\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.479\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.366\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.63\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.916\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">STAViS\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.569\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.425\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.94\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.931\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ViNet\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.569\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.409\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.06\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.928\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">CASP-Net\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.620\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.478\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.34\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.940\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>Mano-P 1.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.642\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.481\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.99\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.929\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n##### **Emotion Recognition**\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: left;\">\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Emotion Valence\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Emotion Arousal\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">Acc ↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Acc ± 1 ↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Acc ↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Acc ± 1 ↑\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen2.5-VL-7B\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">13.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">38.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">35.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>Mano-P 1.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>20.2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>46.5\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>18.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>47.3\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n### 4. Pruning\n\n\u003Cdetails>\n\u003Csummary>📊 Expand Evaluation Data\u003C\u002Fsummary>\n\n#### Online-Mind2Web\n\n**Comparison of Task Execution Success Rate (SR) on Online-Mind2Web Benchmark**\n_Avg. Tokens\u002Fimg_ represents the average visual token retention rate per image; lower values indicate more aggressive pruning.\n\n**GSPruning** is a novel token pruning method designed for Vision-Language Models to efficiently process high-resolution web interfaces by preserving global spatial structure through anchor points and identifying semantic outliers for critical UI elements. It achieves 2-3× throughput speedup with minimal performance loss, enabling more efficient autonomous web agents.\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">Model\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">Method\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Avg. Tokens\u003Cbr>\u002Fimg ↓\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Training\u003Cbr>samples\u002Fs ↑\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">SR (↑)\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"10\" style=\"text-align: left;\">Qwen3VL-2B\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Baseline (w\u002Fo FT)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">100%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.08\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.290\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Baseline (FT)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">100%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.09\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.390\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">TextGuide\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.55%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">13.54\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.310\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">FlashVLM [4]\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.55%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">17.01\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.343\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Compressor-VLA [11]\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">13.33%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.293\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">HiPrune [16]\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25.09%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16.67\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.333\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">PDrop [33]\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">41.47%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.43\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.330\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">IVC\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25.09%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.89\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.303\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>Mano-P 1.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25.09%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">20.04\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.370\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>Mano-P 1.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>12.57%\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>22.62\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.336\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"4\" style=\"text-align: left; background-color: white;\">Qwen3VL-4B\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Baseline (FT)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">100%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.24\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.425\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">PDrop\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">41.47%\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.58\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.365\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">IVC\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>25.09%\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.67\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.343\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>GSPruning\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>25.09%\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>16.72\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.400\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n### 5. Context Learning\n\n\u003Cdetails>\n\u003Csummary>📊 Expand Evaluation Data\u003C\u002Fsummary>\n\n#### [CL Bench](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FCL-bench)\n\n![CL-bench.png](pics\u002FCL-bench.png)\n\n\u003C\u002Fdetails>\n\n---\n\n## 🔧 Skills\n\n**Mano-Skill** is a desktop GUI automation tool based on the Mano model, driving cross-platform graphical interface operations through natural language. We provide two different usage forms for the same core capability to adapt to different usage scenarios and user groups.\n\n---\n\n### 📦 Core Capability Overview\n\n#### Feature Highlights\n\n- **Natural Language Driven**: Users describe tasks in natural language, and the system automatically executes GUI operations\n- **Flexible Inference Modes**:\n  - **Local Mode**: Models run locally, data stays on device, fast response\n    - Run directly on Mac mini\u002FMacBook (M4 chip or above, 32GB+ RAM)\n    - Or use Mano-P computing stick (via USB 4.0 connection)\n  - **Cloud Mode**: Without local model configuration, uses cloud API service (`mano.mininglamp.com`)\n  - System automatically detects local model configuration and seamlessly switches inference modes\n- **Comprehensive Interaction Support**: Click, type, hotkey, scroll, drag, mouse movement, screenshot, wait, app launch, URL navigation\n- **Cross-Platform Support**: macOS (stable), Windows, Linux (Beta)\n\n#### How It Works\n\n**Cloud Mode (Default)**\n\n1. Capture current screen screenshot\n2. Send screenshot and task description to cloud vision model (`mano.mininglamp.com`)\n3. Cloud model analyzes and returns next action instruction\n4. Local client executes operation (click, type, etc.)\n5. Loop execution until task completion\n\n**Local Mode**\n\n1. Capture current screen screenshot\n2. Run Mano-P model on local device (Mac mini\u002FMacBook) or computing stick for inference\n3. Local model analyzes and returns next action instruction\n4. Client executes operation (click, type, etc.)\n5. Loop execution until task completion\n\n#### Data Privacy & Security\n\n**Cloud Mode:**\n\n- ⚠️ **Data Sent**: Screenshots and task descriptions sent to `mano.mininglamp.com` for real-time visual analysis\n- ✅ **Data Not Sent**: Does not access or transmit local files, clipboard contents, system credentials\n- ⚠️ **Privacy Note**: Avoid displaying sensitive documents, chat logs, or credential information on screen when running tasks\n\n**Local Mode (Mac mini\u002FMacBook or Computing Stick):**\n\n- ✅ **Fully Local Processing**: All data processing is completed locally, screenshots and task descriptions never leave the device\n- ✅ **Data Stays on Device**: Does not access or transmit any data to external servers\n- ✅ **Maximum Privacy Protection**: Suitable for handling sensitive information and high-security scenarios\n\n**General Assurance:**\n\n- ✅ **Open Source Auditable**: Complete source code publicly available for review\n\n---\n\n### 🔧 Two Usage Forms\n\n> If you want to use Mano-P directly to accomplish GUI automation tasks, here are two different usage forms. Choose the one that best fits your use case.\n\n#### 1️⃣ mano-cua (CLI Command-Line Tool)\n\n**Use Case**: **For human users** — developers and advanced users invoking mano-cua directly in a terminal to quickly execute one-off or scripted GUI automation tasks\n\n**Installation**:\n\n```bash\n# Install via Homebrew\nbrew tap Mininglamp-AI\u002Ftap\nbrew install mano-cua\n```\n\nThe installation process will automatically:\n\n- Create an isolated Python 3.13 virtual environment\n- Install required dependencies (including Tkinter GUI library)\n- Configure the executable command to system PATH\n\n**Usage**:\n\n```bash\n# Cloud mode (default — no extra setup required)\nmano-cua run \"Open WeChat and tell FTY the meeting is postponed\"\nmano-cua run \"Search for AI news on Xiaohongshu and display the first post\"\n\n# Stop current task\nmano-cua stop\n```\n\nmano-cua ships with two inference modes: **cloud** and **local**. Cloud is the default; to run Mano-P locally on macOS Apple Silicon, use the `--local` flag:\n\n```bash\n# First-time local setup: verify env \u002F install SDK \u002F pull the local model\nmano-cua check\nmano-cua install-sdk\nmano-cua install-model\n\n# Run a task in local mode\nmano-cua run \"Open Safari and search for Python\" --local\nmano-cua run \"Type hello in the search box\" --local --url \"https:\u002F\u002Fwww.baidu.com\" --minimize --max-steps 15\n```\n\nIn local mode, Mano-P runs on-device via MLX — screenshots and task descriptions make zero network calls for inference.\n\n**Features**:\n\n- ✅ Command-line interface, quick invocation\n- ✅ Virtual environment isolation, no system Python pollution\n- ✅ Suitable for script integration and batch processing\n- ✅ Can be embedded in shell scripts\n- ✅ Cloud \u002F local inference modes — `--local` switches to on-device in one flag\n\n**Installation & Distribution**:\n\n- **Homebrew Tap**: [github.com\u002FMininglamp-AI\u002Fhomebrew-tap](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002Fhomebrew-tap)\n\n---\n\n#### 2️⃣ mano-skill (ClawHub Skill Form)\n\n**Use Case**: **For AI agents** — Claude Code, OpenClaw and similar agents autonomously invoke GUI automation capabilities mid-reasoning to complete user tasks, no manual command execution needed\n\n**Installation**:\n\n**Option 1: Install via Claude Code**\n\nIn Claude Code, skills exist as \"commands\". Installation steps:\n\n1. Download the skill zip package from [ClawHub](https:\u002F\u002Fclawhub.ai\u002Fhanningwang\u002Fmano-cua)\n2. After extraction, copy files to Claude Code's commands directory\n3. Restart Claude Code or in a new session, the skill will be automatically available\n\n**Option 2: Install via ClawHub CLI (Recommended)**\n\nUse the ClawHub CLI tool for one-click installation and skill management:\n\n```bash\n# Install skill\nclawhub install mano-cua\n\n# Install specific version\nclawhub install mano-cua --version 1.0.0\n\n# Update skill to latest version\nclawhub update mano-cua\n```\n\nAfter installation, start a new Claude Code or OpenClaw session to use.\n\n> **Prerequisites**: ClawHub CLI tool must be installed first. See: [OpenClaw Documentation - ClawHub](https:\u002F\u002Fdocs.openclaw.ai\u002Ftools\u002Fclawhub)\n\n**Usage**:\n\nWhen users make requests to AI agents that require GUI operations, the agent will automatically invoke this skill:\n\n```\nUser: \"Help me open WeChat, find FTY's chat window, and tell him the meeting is postponed to tomorrow\"\nAgent: [Automatically invokes mano-skill to complete GUI operation]\n```\n\n**Features**:\n\n- ✅ Autonomously invoked by AI agents, no manual command execution needed\n- ✅ Deeply integrated with agent reasoning capabilities\n- ✅ Suitable for complex multi-step task automation\n- ✅ ClawHub ecosystem with version management and security scanning\n\n**Project Resources**:\n\n- **Source Code**: [github.com\u002FMininglamp-AI\u002Fmano-skill](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002Fmano-skill)\n- **ClawHub Home**: [clawhub.ai\u002Fhanningwang\u002Fmano-cua](https:\u002F\u002Fclawhub.ai\u002Fhanningwang\u002Fmano-cua)\n- **Version**: v1.0.0\n- **License**: MIT\n\n---\n\n### ⚙️ Permission Requirements (Common to All Forms)\n\n- **Screen Recording Permission**\n- **Accessibility Permission** (keyboard\u002Fmouse control)\n- Grant permissions in **System Preferences → Privacy & Security**\n\n### 🔒 Security Constraints (Common to All Forms)\n\n- Sensitive or potentially dangerous operations require user confirmation before execution\n- Users can stop tasks at any time\n- Only one task can run on each device simultaneously\n- Only supports primary display (multi-display environment)\n\n### 📊 Status Panel\n\nWhen a task is running, a small status panel appears in the top-right corner of the screen to:\n\n- Display real-time task status and progress\n- Provide task management functions (pause\u002Fstop)\n- Remind users that an automation task is running to avoid accidental interference\n\n### 🔔 Platform Compatibility Note\n\n**Beta Version Notice**: Mano-Skill is currently in Beta testing phase.\n\n- **macOS**: ✅ Preferred and most thoroughly tested platform, stable and ready for use\n- **Windows** and **Linux**: ⚠️ Platform adaptations not yet fully completed, minor issues may occur\n\nWe are continuously improving cross-platform compatibility. Feedback is welcome.\n\n---\n\n## 🤖 Models\n\n> If you want to integrate Mano-P's model capabilities into your own applications, this section provides performance metrics and usage guidelines.\n\n### Performance Evaluation\n\nThe table below presents actual inference benchmark results of Mano-P 1.0-4B running on Apple M5 Pro with the Cider inference SDK. Using W8A16 (MLX's native weight-only quantization path) as the baseline — the same reference convention adopted in [Cider's quantization benchmark](#-inference-sdk) — enabling Cider's W8A8 activation quantization reduces prefill time from 2.839s to 2.519s on the same input, a **~12.7% prefill speedup**. For more data, refer to the [⚡ Inference SDK](#-inference-sdk) section below.\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Model\u003C\u002Fth>\n      \u003Cth>Chip\u003C\u002Fth>\n      \u003Cth>Bandwidth\u003C\u002Fth>\n      \u003Cth>Framework\u003C\u002Fth>\n      \u003Cth>Context Length\u003C\u002Fth>\n      \u003Cth>Quantization\u003C\u002Fth>\n      \u003Cth>Prefill Time\u003Cbr\u002F>(s)\u003C\u002Fth>\n      \u003Cth>Decode Speed\u003Cbr\u002F>(tokens\u002Fs)\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">\u003Cstrong>Mano-P 1.0-4B\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd rowspan=\"2\">Apple M5 Pro\u003Cbr\u002F>64GB RAM\u003C\u002Ftd>\n      \u003Ctd rowspan=\"2\">\u003Cstrong>307 GB\u002Fs\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd rowspan=\"2\">Cider\u003C\u002Ftd>\n      \u003Ctd rowspan=\"2\">4516\u003C\u002Ftd>\n      \u003Ctd>W8A16\u003C\u002Ftd>\n      \u003Ctd>2.839\u003C\u002Ftd>\n      \u003Ctd>80.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>W8A8\u003C\u002Ftd>\n      \u003Ctd>2.519\u003C\u002Ftd>\n      \u003Ctd>79.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n**Model download:** 🤗 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002FMininglamp-2718\u002FMano-P) · 🪄 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FMininglamp\u002FMano-P)\n\n---\n\n## ⚡ Inference SDK\n\n### Overview\n\n**Cider** is an inference acceleration SDK developed on top of MLX for macOS. It provides online activation quantization operators absent in MLX, with custom int-matmul kernels built as MLX custom primitives supporting full lazy evaluation. It also includes service-side extensions and non-intrusive compatibility patches for `mlx_vlm` (validated on `mlx_vlm 0.4.3`), including fixes for Qwen3-VL multi-image inference issues related to RoPE position handling and chunked prefill.\n\n### Conditional Compilation (M4 \u002F M5)\n\nCider uses **conditional compilation**: the INT8 TensorOps C++ extension is only built on Apple M5+.\n\n| Chip             | `pip install -e .` behavior                   | `import cider` behavior                                        |\n| ---------------- | --------------------------------------------- | -------------------------------------------------------------- |\n| **M5+**          | Full build (CMake + Metal kernels)            | All features available                                         |\n| **M4 and below** | Skips C++ build, installs pure-Python package | `is_available()` → False, `convert_model()` is a warning no-op |\n\n**Override via environment variable:**\n\n```bash\nCIDER_FORCE_BUILD=1 pip install -e .   # Force build (e.g., CI)\nCIDER_FORCE_BUILD=0 pip install -e .   # Force skip\n```\n\n### Modes\n\n| Mode     | Weights             | Activations    | Compute Path       | Status         |\n| -------- | ------------------- | -------------- | ------------------ | -------------- |\n| **W8A8** | INT8 symmetric      | INT8 per-token | TensorOps matmul2d | ✅ Implemented |\n| **W4A8** | INT4 packed (uint8) | INT8 per-token | Unpack → TensorOps | ✅ Implemented |\n| W4A16    | —                   | —              | MLX built-in       | Baseline       |\n| W8A16    | —                   | —              | MLX built-in       | Baseline       |\n\n**W4A16 and W8A16 are already supported by MLX natively** — this SDK provides the missing **W8A8** and **W4A8** modes that MLX does not implement.\n\nMLX's quantization is **weight-only**: `QuantizedLinear` dequantizes weights to FP16 and uses FP16 GEMM. While MLX's Steel NAX templates are generic enough to be instantiated with INT8 types (and would achieve identical raw matmul throughput — [see the transparent benchmark](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002Fcider\u002Fblob\u002Fmain\u002Fbenchmarks\u002Fmlx_native\u002Fcider_vs_mlx_int8.md)), MLX does not provide the quantization\u002Fdequantization pipeline needed for actual W8A8 inference. Cider fills this gap with fused quantize-matmul-dequant primitives, implementing online INT8 activation quantization and INT8 TensorOps-based compute for the supported inference paths.\n\n#### W8A8 Quantization Granularity\n\n| Granularity            | Description                  | Speed                   | Precision                    |\n| ---------------------- | ---------------------------- | ----------------------- | ---------------------------- |\n| **Per-channel**        | One scale per output channel | Fastest (1.8x prefill)  | Slightly lower               |\n| **Per-group (gs=128)** | One scale per 128 elements   | Fast (1.5x prefill)     | Moderate precision retention |\n| **Per-group (gs=64)**  | One scale per 64 elements    | Moderate (1.3x prefill) | Higher precision             |\n\n### Performance (Apple M5 Pro)\n\n**Individual Operator Latency**\n\nShape [N=10240, K=2560]\n\n| M    | PC(ms) | PG(ms)  | w8a16   | w4a16   | PC\u002Fw8 | PC\u002Fw4 | PG\u002Fw8 | PG\u002Fw4 |\n| ---- | ------ | ------- | ------- | ------- | ----- | ----- | ----- | ----- |\n| 1    | 0.27ms | 0.26ms  | 0.26ms  | 0.18ms  | 0.96x | 0.67x | 0.99x | 0.69x |\n| 128  | 0.34ms | 0.39ms  | 0.49ms  | 0.44ms  | 1.43x | 1.28x | 1.26x | 1.13x |\n| 1024 | 1.23ms | 1.52ms  | 2.24ms  | 2.04ms  | 1.82x | 1.66x | 1.47x | 1.34x |\n| 4096 | 4.41ms | 5.65ms  | 8.12ms  | 7.72ms  | 1.84x | 1.75x | 1.44x | 1.37x |\n| 8192 | 8.71ms | 11.40ms | 16.23ms | 15.09ms | 1.86x | 1.73x | 1.42x | 1.32x |\n\nShape [N=2560, K=10240]\n\n| M    | PC(ms)  | PG(ms)  | w8a16   | w4a16   | PC\u002Fw8 | PC\u002Fw4 | PG\u002Fw8 | PG\u002Fw4 |\n| ---- | ------- | ------- | ------- | ------- | ----- | ----- | ----- | ----- |\n| 1    | 0.25ms  | 0.26ms  | 0.26ms  | 0.20ms  | 1.03x | 0.78x | 0.98x | 0.75x |\n| 128  | 0.39ms  | 0.41ms  | 0.55ms  | 0.46ms  | 1.43x | 1.19x | 1.35x | 1.12x |\n| 1024 | 1.31ms  | 1.65ms  | 2.35ms  | 2.14ms  | 1.80x | 1.64x | 1.43x | 1.30x |\n| 4096 | 5.37ms  | 6.79ms  | 8.54ms  | 8.04ms  | 1.59x | 1.50x | 1.26x | 1.18x |\n| 8192 | 10.97ms | 12.94ms | 17.28ms | 16.23ms | 1.58x | 1.48x | 1.34x | 1.25x |\n\n**End-to-End VLM**\n\n_Qwen3-VL-2B_\n\n| Prompt Tokens | FP16 Prefill (tok\u002Fs) | W8A16 Prefill (tok\u002Fs) | **W8A8 PC Prefill (tok\u002Fs)** | FP16 Decode (tok\u002Fs) | W8A16 Decode (tok\u002Fs) | **W8A8 PC Decode (tok\u002Fs)** |\n| :-----------: | :------------------: | :-------------------: | :-------------------------: | :-----------------: | :------------------: | :------------------------: |\n|     1334      |         3010         |         2065          |          **3242**           |         70          |         107          |          **104**           |\n|     2393      |         2868         |         1847          |          **2983**           |         69          |          97          |          **100**           |\n|     3455      |         2777         |         1741          |          **2796**           |         66          |          90          |           **95**           |\n\n_Qwen3-VL-4B_\n\n| Prompt Tokens | FP16 Prefill (tok\u002Fs) | W8A16 Prefill (tok\u002Fs) | **W8A8 PC Prefill (tok\u002Fs)** | FP16 Decode (tok\u002Fs) | W8A16 Decode (tok\u002Fs) | **W8A8 PC Decode (tok\u002Fs)** |\n| :-----------: | :------------------: | :-------------------: | :-------------------------: | :-----------------: | :------------------: | :------------------------: |\n|     1334      |         1884         |         1786          |          **2186**           |         32          |        **56**        |             54             |\n|     2393      |         1815         |         1700          |          **2028**           |         31          |        **55**        |             52             |\n|     3455      |         1755         |         1603          |          **1881**           |         30          |        **52**        |             49             |\n\n**LLM Quantization: Precision vs. Speed Comparison**\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Models\u003C\u002Fth>\n      \u003Cth>Quantization Configuration\u003C\u002Fth>\n      \u003Cth>wikitext2 PPL (↓)\u003C\u002Fth>\n      \u003Cth>Prefill Time (s) (↓)\u003C\u002Fth>\n      \u003Cth>Peak Memory (GB) (↓)\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cb>Qwen3-8B\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>FP16\u003C\u002Ftd>\n      \u003Ctd>9.726\u003C\u002Ftd>\n      \u003Ctd>179.9\u003C\u002Ftd>\n      \u003Ctd>18.93\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>W8A16 (mlx RTN)\u003C\u002Ftd>\n      \u003Ctd>9.707\u003C\u002Ftd>\n      \u003Ctd>221.3\u003C\u002Ftd>\n      \u003Ctd>12.07\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>W8A8 (per-channel)\u003C\u002Ftd>\n      \u003Ctd>9.756\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>123.5\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>11.32\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>W8A8 (per-group gs=64)\u003C\u002Ftd>\n      \u003Ctd>9.744\u003C\u002Ftd>\n      \u003Ctd>179.1\u003C\u002Ftd>\n      \u003Ctd>11.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>W8A8 (per-group gs=128)\u003C\u002Ftd>\n      \u003Ctd>9.727\u003C\u002Ftd>\n      \u003Ctd>165.8\u003C\u002Ftd>\n      \u003Ctd>11.61\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\">\u003Cb>Llama3-8B\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>FP16\u003C\u002Ftd>\n      \u003Ctd>6.138\u003C\u002Ftd>\n      \u003Ctd>175.8\u003C\u002Ftd>\n      \u003Ctd>18.32\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>W8A16 (mlx RTN)\u003C\u002Ftd>\n      \u003Ctd>6.147\u003C\u002Ftd>\n      \u003Ctd>236.9\u003C\u002Ftd>\n      \u003Ctd>11.46\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>W8A8 (per-channel)\u003C\u002Ftd>\n      \u003Ctd>6.271\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>123.3\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>10.69\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>W8A8 (per-group, gs=64)\u003C\u002Ftd>\n      \u003Ctd>6.269\u003C\u002Ftd>\n      \u003Ctd>178.7\u003C\u002Ftd>\n      \u003Ctd>11.19\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>W8A8 (per-group, gs=128)\u003C\u002Ftd>\n      \u003Ctd>6.270\u003C\u002Ftd>\n      \u003Ctd>155.7\u003C\u002Ftd>\n      \u003Ctd>10.98\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n- 🔗 Repository: [github.com\u002FMininglamp-AI\u002Fcider](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002Fcider)\n\n---\n\n## ⚗️ Approach\n\n> If you are a researcher or wish to train customized GUI Agent models based on your own data, we plan to open-source the complete Mano-Action training methodology and related tools.\n>\n> **Release Soon**\n\n### Mano-Action Training Methodology\n\nMano-Action is a bidirectional self-reinforcement training framework specifically designed for GUI Grounding. Unlike traditional unidirectional prediction methods, Mano-Action achieves more robust interface understanding through Text↔Action cycle consistency learning, enabling the model to master both \"locating elements from descriptions\" and \"describing given elements\" simultaneously.\n\n#### Core Features\n\n- **Bidirectional Cycle Learning**: Mutual reinforcement between Text → Action and Action → Text\n- **Three-Stage Progressive Training**: Supervised Learning → Offline RL → Online RL\n- **Closed-Loop Data Generation**: Automatically generate high-quality training data for continuous model improvement\n- **Edge Optimization Adaptation**: Includes quantization, pruning, and other edge deployment optimization techniques\n\n#### Use Cases\n\n- 🎓 **Academic Research**: Explore new approaches to GUI understanding and multimodal interaction\n- 🏢 **Enterprise Customization**: Train specialized models based on internal enterprise systems\n- 🌐 **Domain Adaptation**: Fine-tune models for specific domains (healthcare, finance, etc.)\n- 🔬 **Algorithm Innovation**: Develop new training techniques building on Mano-Action\n\n---\n\n## 🌟 Technical Advantages\n\n### Mano-P vs Traditional Solutions CUA Comparison\n\n| Feature             | Mano-P                           | OpenClaw                 | Manus                        | Traditional RPA                 |\n| ------------------- | -------------------------------- | ------------------------ | ---------------------------- | ------------------------------- |\n| **Model Source**    | ✅ Built-in edge model           | ⚠️ User-configured       | ⚠️ Cloud API calls           | ❌ No model (rule-based engine) |\n| **Data Security**   | ✅ Local execution               | ⚠️ LLM\u002Fskill cloud calls | ⚠️ Cloud inference           | ✅ Can be local                 |\n| **Control Method**  | ✅ Pure visual                   | ⚠️ CDP protocol+CLI      | ❌ HTML parsing+CLI          | ❌ System API                   |\n| **Use Scenarios**   | ✅ All-type GUI (desktop\u002FWeb\u002F3D) | ✅ Multi-type apps       | ⚠️ Web apps only             | ⚠️ Specific systems             |\n| **Long Task Plan**  | ✅ Autonomous planning           | ✅ Autonomous planning   | ✅ Visual flow orchestration | ❌ Needs preset workflows       |\n| **Response Speed**  | ✅ Instant response              | ✅ Local\u002Fcloud execution | ⚠️ Cloud latency             | ✅ Instant response             |\n| **Deployment Cost** | ✅ Low-cost entry                | ✅ Open source & free    | ⚠️ Subscription fee          | ✅ Low cost                     |\n| **Robustness**      | ✅ UI change adaptive            | ✅ LLM adaptive          | ⚠️ Limited adaptation        | ❌ UI change needs reconfig     |\n\n### Core Competitiveness\n\n1. **Edge Large Model + Flexible Deployment**\n   - 4B model runs directly on Mac (M4 chip + 32GB RAM)\n   - Large parameter models (72B) supported via computing stick\n   - No API key configuration needed, ready out-of-the-box\n   - Significant advantage over OpenClaw (requires user model configuration) and Manus (cloud calls)\n\n2. **Universal Visual Understanding**\n   - Pure visual GUI interaction, not limited to browsers and web apps\n   - Broader support than OpenClaw (CDP protocol mainly for browsers) and Manus (web apps only)\n   - Supports desktop software, 3D applications, professional tools, and non-standard GUIs\n\n3. **Offline Long-Task Autonomous Planning**\n   - Fully offline reasoning for complex business processes\n   - Autonomous decision-making and error correction without internet connection\n   - Unique advantage over Manus (cloud latency) and traditional RPA (needs preset workflows)\n\n4. **Integrated Hardware Deployment**\n   - Model + computing stick integrated solution, plug-and-play\n   - Lowers technical barrier compared to OpenClaw (open-source & free but requires self-deployment)\n   - Multiple deployment forms (direct Mac install \u002F plug-and-play compute stick), rapid launch\n\n---\n\n## 🔗 Applications\n\n**Mano-AFK** — an autonomous full-cycle app builder that turns a single natural-language sentence into a deployed, tested, and bug-fixed application. Its E2E testing stage runs **by default with Mano-P as the local backend** (screenshots and task descriptions stay on-device); it can also switch to cloud mode driven by Anthropic's Claude CUA (requires `ANTHROPIC_API_KEY`; third-party service with no local alternative). Mano-AFK is a concrete application scenario of Mano-P in real-world software engineering pipelines.\n\n- GitHub: [github.com\u002FMininglamp-AI\u002Fmano-afk](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002Fmano-afk)\n- ClawHub: [clawhub.ai\u002Fhanningwang\u002Fmano-afk](https:\u002F\u002Fclawhub.ai\u002Fhanningwang\u002Fmano-afk)\n\n**CUA Benchmark — Mano-P 4B on MacBook Pro M5 (16GB)**\n\nThe suite evaluates 100 tasks across 5 web applications that were themselves built autonomously by Mano-AFK: **TripSplit** (expense splitting), **md-wechat** (Markdown → WeChat formatter), **OMS** (order management), **Family Ledger** (household bookkeeping), and **Life Dashboard** (personal widgets). Each app ships in two variants — a **golden** build (bug-free, expected verdict PASS, 76 tasks) and a **buggy** build with specific UI\u002Flogic defects injected (expected verdict FAIL, 24 tasks). Accuracy is defined as the share of tasks where the judge's verdict matches the expected label; each project contributes 15–16 golden tasks and 4–5 bug-injection tasks.\n\n| Configuration                                          | Accuracy  | Avg Steps | Prefill Speed | Avg Tokens\u002FStep |\n| ------------------------------------------------------ | --------- | --------- | ------------- | --------------- |\n| W8A16                                                  | **58.0%** | 6.1       | ~1,253 tok\u002Fs  | 3,389           |\n| W8A8 ([Cider](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002Fcider)) | **54.0%** | 6.93      | ~1,453 tok\u002Fs  | 3,104           |\n\nMetrics: _Accuracy_ — judge verdict matches expected PASS\u002FFAIL; _Steps_ — actions taken per task; _Prefill Speed_ — token throughput during the prefill phase; _Tokens\u002FStep_ — prompt + generation tokens combined.\n\n> **Note on W8A8 on this hardware:** The W8A8 row runs via [Cider](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002Fcider) for INT8 activation quantization. W8A8 accelerates prefill through INT8 TensorOps, but it must hold both the original and the INT8 weights in memory simultaneously — roughly doubling weight footprint. On a 16 GB unified-memory device, the added pressure can trigger swapping that offsets the prefill gain, which is why W8A8 here lands slightly behind W8A16 on accuracy. At least 4 GB of free memory beyond the model size is recommended to see W8A8's full benefit.\n\n- [Benchmark methodology](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002Fmano-afk\u002Ftree\u002Fmaster\u002Fbenchmark) — full test design, task schema, and bug catalog\n\n---\n\n## 📄 Technical Papers & Citation\n\n### Related Papers\n\nMano-P is based on the following research work:\n\n**1. Mano Series Model Foundation Paper**\n\n```bibtex\n@article{mano-2025,\n  title={Mano Technical Report},\n  author={Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang},\n  journal={arXiv preprint arXiv:2509.17336},\n  year={2025},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.17336}\n}\n```\n\n**2. WebRetriever Benchmark**\n\n```bibtex\n@article{webretriever-2026,\n  title={WebRetriever: A Large-Scale Comprehensive Benchmark for Efficient Web Agent Evaluation},\n  author={Wei Dong and Tianyu Fu and Zhe Yu and Hanning Wang and Anyang Su and Zhizhou Fang and Yuyang Chen and Shuo Wang and Minghui Wu and Ping Jiang and Zhen Lei and Chenxu Zhao},\n  year={2026},\n  note={To be published},\n  url={https:\u002F\u002Fgithub.com\u002Fhhhhhhalf\u002FWebRetriever}\n}\n```\n\n### Academic Collaboration\n\nWe welcome collaboration with academia:\n\n- 🔬 **Dataset Contribution**: Provide new GUI task datasets\n- 🤝 **Joint Research**: Collaborate on edge deployment, quantization optimization, GUI understanding, etc.\n- 📚 **Benchmarking**: Test Mano-P on new evaluation sets\n\nFor academic collaboration inquiries, please contact: model@mininglamp.com\n\n---\n\n## ❓ FAQ\n\n\u003Cdetails open>\n\u003Csummary>\u003Cb>🤖 What is Mano-P?\u003C\u002Fb>\u003C\u002Fsummary>\n\u003Cbr>\n\nMano-P is an **open-source GUI-VLA (Vision-Language-Action) agent** designed to run locally on Apple Silicon edge devices. It uses **pure visual understanding** to automate desktop GUI operations across platforms.\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Cb>⚖️ How does Mano-P compare to Claude Computer Use?\u003C\u002Fb>\u003C\u002Fsummary>\n\u003Cbr>\n\n**Performance Comparison:**\n\n- OSWorld (all models): Claude Sonnet 4.6 **72.1%** vs Mano-P 1.0-72B **58.2%**\n- WebRetriever Protocol I: Mano-P **41.7 NavEval** vs Claude 4.5 Computer Use **31.3**\n\n**Key Difference:**\n\n- ✅ Mano-P **runs entirely on-device**, no data leaves the machine\n- ⚠️ Claude Computer Use requires cloud API calls\n\n**Use Case:** Mano-P is particularly suitable for **high-security scenarios**.\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Cb>🔌 Can Mano-P run without internet?\u003C\u002Fb>\u003C\u002Fsummary>\n\u003Cbr>\n\n**Yes!** In local mode, all model inference runs on the Apple M4 device. ✅ **No screenshots or task descriptions are sent to external servers.**\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Cb>💻 What hardware do I need?\u003C\u002Fb>\u003C\u002Fsummary>\n\u003Cbr>\n\n**Minimum Requirements:**\n\n- Mac mini or MacBook\n- Apple M4 chip\n- 32GB RAM\n\n**Alternative:**\n\n- Any Mac + Mano-P computing stick (connected via USB 4.0+)\n\n📌 We plan to support more devices in the future.\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Cb>📦 How do I install Mano-P?\u003C\u002Fb>\u003C\u002Fsummary>\n\u003Cbr>\n\n**CLI Tool:**\n\n```bash\nbrew tap Mininglamp-AI\u002Ftap && brew install mano-cua\n```\n\n**OpenClaw\u002FClaude Code Skill:**\nSee [ClawHub - Mano-CUA](https:\u002F\u002Fclawhub.ai\u002Fhanningwang\u002Fmano-cua)\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Cb>🔒 Is my data safe?\u003C\u002Fb>\u003C\u002Fsummary>\n\u003Cbr>\n\n**Local Mode:** ✅ All processing happens on-device\n\n**Cloud Mode:**\n\n- ⚠️ Only screenshots and task descriptions sent to `mano.mininglamp.com`\n- ✅ No local files, clipboard contents, or credentials accessed\n\n**Transparency:** Full client is [open-source](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002Fmano-skill) for audit\n\n\u003C\u002Fdetails>\n\n---\n\n## 🤝 Contribution Guidelines\n\nWe welcome community contributions! If you want to contribute to the project:\n\n1. Fork this repository\n2. Create your feature branch (`git checkout -b feature\u002FAmazingFeature`)\n3. Commit your changes (`git commit -m 'Add some AmazingFeature'`)\n4. Push to the branch (`git push origin feature\u002FAmazingFeature`)\n5. Open a Pull Request\n\n### Contribution Areas\n\n- 🐛 Bug fixes and issue reporting\n- 📝 Documentation improvements and translations\n- 💡 New feature suggestions and implementations\n- 🧪 Test cases and benchmarking\n- 🎨 Application scenarios and demo contributions\n\n---\n\n## 📄 License\n\nThis project is licensed under the [Apache License 2.0](LICENSE).\n\n**License Highlights:**\n\n- ✅ Commercial use\n- ✅ Modification and distribution\n- ✅ Patent grant\n- ⚠️ Must retain copyright notice\n- ⚠️ Must state changes\n\n---\n\n## 📮 Contact\n\n\u003C!-- Contact information to be added -->\n\n- 📧 Email: model@mininglamp.com\n- 🏠 Website: [https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002FMano-P](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002FMano-P)\n- 💬 Community: (To be added)\n- 🐛 GitHub Issues: [https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002FMano-P\u002Fissues](https:\u002F\u002Fgithub.com\u002FMininglamp-AI\u002FMano-P\u002Fissues)\n\n---\n\n## 🙏 Acknowledgments\n\nThanks to all developers and researchers who contributed to this project.\n\n**Special Thanks:**\n\n- Mano project team for providing the technical foundation\n- DeepMiner platform for deep integration support\n- Edge computing hardware partners\n- Open source community contributors\n\n---\n\n\u003Cp align=\"center\">\n  \u003Csub>Built with ❤️ by the Mano-P Team\u003C\u002Fsub>\n\u003C\u002Fp>\n","Mano-P 是一个专为边缘设备设计的开源GUI-VLA代理项目，旨在通过纯视觉驱动实现跨平台的图形用户界面自动化操作。其核心功能包括支持在Mac mini或MacBook上本地运行推理，以及通过算力棒进行处理，确保所有数据均在本地处理而不外泄。技术特点涵盖了复杂的多步骤任务规划与执行能力，并且提供了针对不同开发者群体分阶段开源的模型、技能及SDK组件。适用于需要高安全性保障的应用场景，如个人隐私保护严格的企业内部系统自动化、桌面应用程序测试等。",2,"2026-06-11 03:52:28","high_star"]