[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-72034":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":16,"stars7d":16,"stars30d":17,"stars90d":16,"forks30d":16,"starsTrendScore":16,"compositeScore":18,"rankGlobal":10,"rankLanguage":10,"license":19,"archived":20,"fork":20,"defaultBranch":21,"hasWiki":20,"hasPages":20,"topics":22,"createdAt":10,"pushedAt":10,"updatedAt":23,"readmeContent":24,"aiSummary":25,"trendingCount":16,"starSnapshotCount":16,"syncStatus":26,"lastSyncTime":27,"discoverSource":28},72034,"MonkeyOCR","Yuliang-Liu\u002FMonkeyOCR","Yuliang-Liu","A lightweight LMM-based Document Parsing Model","",null,"Python",6597,459,48,1,0,7,38.99,"Apache License 2.0",false,"main",[],"2026-06-12 02:02:57","\u003Cdiv align=\"center\" xmlns=\"http:\u002F\u002Fwww.w3.org\u002F1999\u002Fhtml\">\n\u003Ch1 align=\"center\">\nMonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm\n\u003C\u002Fh1>\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-MonkeyOCR-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.05218)\n[![HuggingFace](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-black.svg?logo=HuggingFace)](https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR-pro-3B)\n[![GitHub issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FYuliang-Liu\u002FMonkeyOCR?color=critical&label=Issues)](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fissues?q=is%3Aopen+is%3Aissue)\n[![GitHub closed issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-closed\u002FYuliang-Liu\u002FMonkeyOCR?color=success&label=Issues)](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fissues?q=is%3Aissue+is%3Aclosed)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-yellow)](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fblob\u002Fmain\u002FLICENSE.txt)\n[![GitHub views](https:\u002F\u002Fkomarev.com\u002Fghpvc\u002F?username=Yuliang-Liu&repo=MonkeyOCR&color=brightgreen&label=Views)](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR)\n\u003C\u002Fdiv>\n\n\n> **MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm**\u003Cbr>\n> Zhang Li, Yuliang Liu, Qiang Liu, Zhiyin Ma, Ziyang Zhang, Shuo Zhang, Zidun Guo, Jiarui Zhang, Xinyu Wang, Xiang Bai \u003Cbr>\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.05218) \n[![Source_code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode-Available-white)](README.md)\n[![Model Weight](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-gray)](https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR)\n[![Model Weight](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-green)](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fl1731396519\u002FMonkeyOCR)\n[![Public Courses](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpenbayes-yellow)](https:\u002F\u002Fopenbayes.com\u002Fconsole\u002Fpublic\u002Ftutorials\u002F91ESrGvEvBq)\n[![Demo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-blue)](https:\u002F\u002Faiwrite.wps.cn\u002Fpdf\u002Fparse\u002Fweb\u002F)\n\n> **MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns**\u003Cbr>\n> Jiarui Zhang, Yuliang Liu, Zijun Wu, Guosheng Pang, Zhili Ye, Yupei Zhong, Junteng Ma, Tao Wei, Haiyang Xu, Weikai Chen, Zeen Wang, Qiangjun Ji, Fanxi Zhou, Qi Zhang, Yuanrui Hu, Jiahao Liu, Zhang Li, Ziyang Zhang, Qiang Liu, Xiang Bai \u003Cbr>\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.10390) \n[![Demo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-blue)](https:\u002F\u002Faiwrite.wps.cn\u002Fpdf\u002Fparse\u002Fweb\u002F)\n>\n\n> **Multimodal OCR: Parse Anything from Documents**\u003Cbr>\n> Handong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Yuqiu Ji, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai \u003Cbr>\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2603.13032)\n[![Source_code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode-Available-white)](https:\u002F\u002Fgithub.com\u002Frednote-hilab\u002Fdots.mocr)\n[![Youtube](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FYoutube-red)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=gkyDZtWGfh8)\n[![Youtube](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRun-dots.mocr-red)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=BxH5KD5lDSM)\n[![Wechat](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💬极市平台-black)](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FEHNrk5SSCOReyTm7uv6nsg)\n[![HyperAI Demo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHyperAI-Demo-red?logo=hyperledger&logoColor=white)](https:\u002F\u002Fhyper.ai\u002Fcn\u002Fnotebooks\u002F50071)\n>\n\t\n## News \n* ```2026.04.01 ``` 🚀 dots.mocr achieves the best open-source score on [MDPBench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2603.28130), a 17-language document parsing benchmark!\n* ```2026.03.15 ``` 🚀 We release [dots.mocr](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2603.13032) Multimodal OCR: Parse Anything from Documents.\n* ```2026.01.30 ``` 🚀 We release [MonkeyDoc](https:\u002F\u002Fwww.modelscope.cn\u002Fdatasets\u002Fzenosai\u002FMonkeyDoc) and provide the necessary details of our data generation pipeline.\n* ```2025.11.14 ``` 🚀 We release [MonkeyOCR-v1.5](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.10390) Technical Report, achieving the best document parsing performance to date. [Demo](https:\u002F\u002Faiwrite.wps.cn\u002Fpdf\u002Fparse\u002Fweb\u002F).\n* ```2025.07.10 ``` 🚀 We release [MonkeyOCR-pro-1.2B](https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR-pro-1.2B), a leaner and faster version model that outperforms our previous 3B version in accuracy, speed, and efficiency.\n* ```2025.06.12 ``` 🚀 The model’s trending on [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmodels?sort=trending) #2.\n* ```2025.06.05 ``` 🚀 We release [MonkeyOCR](https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR), an English and Chinese documents parsing model.\n \n## Introduction\nMonkeyOCR adopts a Structure-Recognition-Relation (SRR) triplet paradigm, which simplifies the multi-tool pipeline of modular approaches while avoiding the inefficiency of using large multimodal models for full-page document processing.\n\n1. MonkeyOCR-pro-1.2B surpasses MonkeyOCR-3B by 7.4% on Chinese documents.\n2. MonkeyOCR-pro-1.2B delivers approximately a 36% speed improvement over MonkeyOCR-pro-3B, with approximately 1.6% drop in performance.\n3. On olmOCR-Bench, MonkeyOCR-pro-1.2B outperforms Nanonets-OCR-3B by 7.3%.\n4. On OmniDocBench, MonkeyOCR-pro-3B achieves the best overall performance on both English and Chinese documents, outperforming even closed-source and extra-large open-source VLMs such as Gemini 2.0-Flash, Gemini 2.5-Pro, Qwen2.5-VL-72B, GPT-4o, and InternVL3-78B.\n\nSee detailed results below.\n\n### Comparing MonkeyOCR with closed-source and extra large open-source VLMs.\n\u003Cp align=\"center\">\n\u003Cimg src=\".\u002Fasserts\u002FMonkeyOCR_vs_VLMs.png\" width=800 border=\"0\">\n\u003Cp>\n\n## Inference Speed (Pages\u002Fs) on Different GPUs and [PDF](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1geumlJmVY7UUKdr8324sYZ0FHSAElh7m?usp=sharing) Page Counts\n\n\u003Ctable>\n    \u003Cthead>\n\t\t\u003Ctr align='center'>\n    \t\t\u003Cth>Model\u003C\u002Fth>\n        \t\u003Cth>GPU\u003C\u002Fth>\n        \t\u003Cth>50 Pages\u003C\u002Fth>\n        \t\u003Cth>100 Pages\u003C\u002Fth>\n        \t\u003Cth>300 Pages\u003C\u002Fth>\n        \t\u003Cth>500 Pages\u003C\u002Fth>\n        \t\u003Cth>1000 Pages\u003C\u002Fth>\n    \t\u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n    \t\u003Ctr align='center'>\n    \t\t\u003Ctd rowspan='4'>MonkeyOCR-pro-3B\u003C\u002Ftd>\n        \t\u003Ctd>3090\u003C\u002Ftd>\n        \t\u003Ctd>0.492\u003C\u002Ftd>\n        \t\u003Ctd>0.484\u003C\u002Ftd>\n        \t\u003Ctd>0.497\u003C\u002Ftd>\n        \t\u003Ctd>0.492\u003C\u002Ftd>\n        \t\u003Ctd>0.496\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>A6000\u003C\u002Ftd>\n        \t\u003Ctd>0.585\u003C\u002Ftd>\n        \t\u003Ctd>0.587\u003C\u002Ftd>\n        \t\u003Ctd>0.609\u003C\u002Ftd>\n        \t\u003Ctd>0.598\u003C\u002Ftd>\n        \t\u003Ctd>0.608\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>H800\u003C\u002Ftd>\n        \t\u003Ctd>0.923\u003C\u002Ftd>\n        \t\u003Ctd>0.768\u003C\u002Ftd>\n        \t\u003Ctd>0.897\u003C\u002Ftd>\n        \t\u003Ctd>0.930\u003C\u002Ftd>\n        \t\u003Ctd>0.891\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>4090\u003C\u002Ftd>\n        \t\u003Ctd>0.972\u003C\u002Ftd>\n        \t\u003Ctd>0.969\u003C\u002Ftd>\n        \t\u003Ctd>1.006\u003C\u002Ftd>\n        \t\u003Ctd>0.986\u003C\u002Ftd>\n        \t\u003Ctd>1.006\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n    \t\t\u003Ctd rowspan='4'>MonkeyOCR-pro-1.2B\u003C\u002Ftd>\n        \t\u003Ctd>3090\u003C\u002Ftd>\n        \t\u003Ctd>0.615\u003C\u002Ftd>\n        \t\u003Ctd>0.660\u003C\u002Ftd>\n        \t\u003Ctd>0.677\u003C\u002Ftd>\n        \t\u003Ctd>0.687\u003C\u002Ftd>\n        \t\u003Ctd>0.683\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>A6000\u003C\u002Ftd>\n        \t\u003Ctd>0.709\u003C\u002Ftd>\n        \t\u003Ctd>0.786\u003C\u002Ftd>\n        \t\u003Ctd>0.825\u003C\u002Ftd>\n        \t\u003Ctd>0.829\u003C\u002Ftd>\n        \t\u003Ctd>0.825\u003C\u002Ftd>\n   \t\t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>H800\u003C\u002Ftd>\n        \t\u003Ctd>0.965\u003C\u002Ftd>\n        \t\u003Ctd>1.082\u003C\u002Ftd>\n        \t\u003Ctd>1.101\u003C\u002Ftd>\n        \t\u003Ctd>1.145\u003C\u002Ftd>\n        \t\u003Ctd>1.015\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>4090\u003C\u002Ftd>\n        \t\u003Ctd>1.194\u003C\u002Ftd>\n        \t\u003Ctd>1.314\u003C\u002Ftd>\n        \t\u003Ctd>1.436\u003C\u002Ftd>\n        \t\u003Ctd>1.442\u003C\u002Ftd>\n        \t\u003Ctd>1.434\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## VLM OCR Speed (Pages\u002Fs) on Different GPUs and [PDF](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1geumlJmVY7UUKdr8324sYZ0FHSAElh7m?usp=sharing) Page Counts\n\n\u003Ctable>\n    \u003Cthead>\n\t\t\u003Ctr align='center'>\n    \t\t\u003Cth>Model\u003C\u002Fth>\n        \t\u003Cth>GPU\u003C\u002Fth>\n        \t\u003Cth>50 Pages\u003C\u002Fth>\n        \t\u003Cth>100 Pages\u003C\u002Fth>\n        \t\u003Cth>300 Pages\u003C\u002Fth>\n        \t\u003Cth>500 Pages\u003C\u002Fth>\n        \t\u003Cth>1000 Pages\u003C\u002Fth>\n    \t\u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n    \t\u003Ctr align='center'>\n    \t\t\u003Ctd rowspan='4'>MonkeyOCR-pro-3B\u003C\u002Ftd>\n        \t\u003Ctd>3090\u003C\u002Ftd>\n        \t\u003Ctd>0.705\u003C\u002Ftd>\n        \t\u003Ctd>0.680\u003C\u002Ftd>\n        \t\u003Ctd>0.711\u003C\u002Ftd>\n        \t\u003Ctd>0.700\u003C\u002Ftd>\n        \t\u003Ctd>0.724\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>A6000\u003C\u002Ftd>\n        \t\u003Ctd>0.885\u003C\u002Ftd>\n        \t\u003Ctd>0.860\u003C\u002Ftd>\n        \t\u003Ctd>0.915\u003C\u002Ftd>\n        \t\u003Ctd>0.892\u003C\u002Ftd>\n        \t\u003Ctd>0.934\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>H800\u003C\u002Ftd>\n        \t\u003Ctd>1.371\u003C\u002Ftd>\n        \t\u003Ctd>1.135\u003C\u002Ftd>\n        \t\u003Ctd>1.339\u003C\u002Ftd>\n        \t\u003Ctd>1.433\u003C\u002Ftd>\n        \t\u003Ctd>1.509\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>4090\u003C\u002Ftd>\n        \t\u003Ctd>1.321\u003C\u002Ftd>\n        \t\u003Ctd>1.300\u003C\u002Ftd>\n        \t\u003Ctd>1.384\u003C\u002Ftd>\n        \t\u003Ctd>1.343\u003C\u002Ftd>\n        \t\u003Ctd>1.410\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n    \t\t\u003Ctd rowspan='4'>MonkeyOCR-pro-1.2B\u003C\u002Ftd>\n        \t\u003Ctd>3090\u003C\u002Ftd>\n        \t\u003Ctd>0.919\u003C\u002Ftd>\n        \t\u003Ctd>1.086\u003C\u002Ftd>\n        \t\u003Ctd>1.166\u003C\u002Ftd>\n        \t\u003Ctd>1.182\u003C\u002Ftd>\n        \t\u003Ctd>1.199\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>A6000\u003C\u002Ftd>\n        \t\u003Ctd>1.177\u003C\u002Ftd>\n        \t\u003Ctd>1.361\u003C\u002Ftd>\n        \t\u003Ctd>1.506\u003C\u002Ftd>\n        \t\u003Ctd>1.525\u003C\u002Ftd>\n        \t\u003Ctd>1.569\u003C\u002Ftd>\n   \t\t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>H800\u003C\u002Ftd>\n        \t\u003Ctd>1.466\u003C\u002Ftd>\n        \t\u003Ctd>1.719\u003C\u002Ftd>\n        \t\u003Ctd>1.763\u003C\u002Ftd>\n        \t\u003Ctd>1.875\u003C\u002Ftd>\n        \t\u003Ctd>1.650\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \t\u003Ctr align='center'>\n        \t\u003Ctd>4090\u003C\u002Ftd>\n        \t\u003Ctd>1.759\u003C\u002Ftd>\n        \t\u003Ctd>1.987\u003C\u002Ftd>\n        \t\u003Ctd>2.260\u003C\u002Ftd>\n        \t\u003Ctd>2.345\u003C\u002Ftd>\n        \t\u003Ctd>2.415\u003C\u002Ftd>\n    \t\u003C\u002Ftr>\n    \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n## Supported Hardware\nDue to the limited types of GPUs available to us, we may not be able to provide highly accurate hardware specifications. We've tested the model on GPUs such as the 3090, 4090, A6000, H800, A100, and even the 4060 with 8GB of VRAM (suitable for deploying quantized 3B model and 1.2B model). We are very grateful for the feedback and contributions from the open-source community, who have also successfully run the model on [50-series GPUs](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fissues\u002F90), [H200](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fissues\u002F151), [L20](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fissues\u002F133), [V100](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fissues\u002F144), [2080 Ti](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fpull\u002F1) and [npu](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fpull\u002F226\u002Ffiles).\n\n\n\n# Quick Start\n## Locally Install\n### 1. Install MonkeyOCR\nSee the [installation guide](https:\u002F\u002Fgithub.com\u002FYuliang-Liu\u002FMonkeyOCR\u002Fblob\u002Fmain\u002Fdocs\u002Finstall_cuda_pp.md#install-with-cuda-support) to set up your environment.\n### 2. Download Model Weights\nDownload our model from Huggingface.\n```python\npip install huggingface_hub\n\npython tools\u002Fdownload_model.py -n MonkeyOCR-pro-3B # or MonkeyOCR-pro-1.2B, MonkeyOCR\n```\nYou can also download our model from ModelScope.\n\n```python\npip install modelscope\n\npython tools\u002Fdownload_model.py -t modelscope -n MonkeyOCR-pro-3B  # or MonkeyOCR-pro-1.2B, MonkeyOCR\n```\n### 3. Inference\nYou can parse a file or a directory containing PDFs or images using the following commands:\n```bash\n# Replace input_path with the path to a PDF or image or directory\n\n# End-to-end parsing\npython parse.py input_path\n\n# Parse files in a dir with specific group page num\npython parse.py input_path -g 20\n\n# Single-task recognition (outputs markdown only)\npython parse.py input_path -t text\u002Fformula\u002Ftable\n\n# Parse PDFs in input_path and split results by pages\npython parse.py input_path -s\n\n# Specify output directory and model config file\npython parse.py input_path -o .\u002Foutput -c config.yaml\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>More usage examples\u003C\u002Fb>\u003C\u002Fsummary>\n\n```bash\n# Single file processing\npython parse.py input.pdf                           # Parse single PDF file\npython parse.py input.pdf -o .\u002Foutput               # Parse with custom output dir\npython parse.py input.pdf -s                        # Parse PDF with page splitting\npython parse.py image.jpg                           # Parse single image file\n\n# Single task recognition\npython parse.py image.jpg -t text                   # Text recognition from image\npython parse.py image.jpg -t formula                # Formula recognition from image\npython parse.py image.jpg -t table                  # Table recognition from image\npython parse.py document.pdf -t text                # Text recognition from all PDF pages\n\n# Folder processing (all files individually)\npython parse.py \u002Fpath\u002Fto\u002Ffolder                     # Parse all files in folder\npython parse.py \u002Fpath\u002Fto\u002Ffolder -s                  # Parse with page splitting\npython parse.py \u002Fpath\u002Fto\u002Ffolder -t text             # Single task recognition for all files\n\n# Multi-file grouping (batch processing by page count)\npython parse.py \u002Fpath\u002Fto\u002Ffolder -g 5                # Group files with max 5 total pages\npython parse.py \u002Fpath\u002Fto\u002Ffolder -g 10 -s            # Group files with page splitting\npython parse.py \u002Fpath\u002Fto\u002Ffolder -g 8 -t text        # Group files for single task recognition\n\n# Advanced configurations\npython parse.py input.pdf -c model_configs.yaml     # Custom model configuration\npython parse.py \u002Fpath\u002Fto\u002Ffolder -g 15 -s -o .\u002Fout   # Group files, split pages, custom output\npython parse.py input.pdf --pred-abandon            # Enable predicting abandon elements\n  python parse.py \u002Fpath\u002Fto\u002Ffolder -g 10 -m            # Group files and merge text blocks in output\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>Output Results\u003C\u002Fb>\u003C\u002Fsummary>\n\nMonkeyOCR mainly generates three types of output files:\n\n1. **Processed Markdown File** (`your.md`): The final parsed document content in markdown format, containing text, formulas, tables, and other structured elements.\n2. **Layout Results** (`your_layout.pdf`): The layout results drawed on origin PDF.\n2. **Intermediate Block Results** (`your_middle.json`): A JSON file containing detailed information about all detected blocks, including:\n   - Block coordinates and positions\n   - Block content and type information\n   - Relationship information between blocks\n\nThese files provide both the final formatted output and detailed intermediate results for further analysis or processing.\n\n\u003C\u002Fdetails>\n\n### 4. Gradio Demo\n```bash\npython demo\u002Fdemo_gradio.py\n```\nOnce the demo is running, you can access it at http:\u002F\u002Flocalhost:7860.\n\n### 5. Fast API\nYou can start the MonkeyOCR FastAPI service with the following command:\n```bash\nuvicorn api.main:app --port 8000\n```\nOnce the API service is running, you can access the API documentation at http:\u002F\u002Flocalhost:8000\u002Fdocs to explore available endpoints.\n> [!TIP]\n> To improve API concurrency performance, consider configuring the inference backend as `vllm_async`.\n\n## Docker Deployment\n\n1. Navigate to the `docker` directory:\n\n   ```bash\n   cd docker\n   ```\n\n2. **Prerequisite:** Ensure NVIDIA GPU support is available in Docker (via `nvidia-docker2`).\n   If GPU support is not enabled, run the following to set up the environment:\n\n   ```bash\n   bash env.sh\n   ```\n\n3. Build the Docker image:\n\n   ```bash\n   docker compose build monkeyocr\n   ```\n   *or* pull our latest official image:\n   ```bash\n   docker pull zenosai\u002Fmonkeyocr:260304\n   ```\n\n> [!IMPORTANT]\n>\n> If your GPU is from the 20\u002F30\u002F40-series, V100, L20\u002FL40 or similar, please build the patched Docker image for LMDeploy compatibility:\n>\n> ```bash\n> docker compose build monkeyocr-fix\n> ```\n>\n> Otherwise, you may encounter the following error: `triton.runtime.errors.OutOfResources: out of resource: shared memory`\n\n4. Run the container with the Gradio demo (accessible on port 7860):\n\n   ```bash\n   docker compose up monkeyocr-demo\n   ```\n\n   Alternatively, start an interactive development environment:\n\n   ```bash\n   docker compose run --rm monkeyocr-dev\n   ```\n\n5. Run the FastAPI service (accessible on port 7861):\n   ```bash\n   docker compose up monkeyocr-api\n   ```\n   Once the API service is running, you can access the API documentation at http:\u002F\u002Flocalhost:7861\u002Fdocs to explore available endpoints.\n\n## Windows Support \n\nSee the [windows support guide](docs\u002Fwindows_support.md) for details.\n\n## Quantization\n\nThis model can be quantized using AWQ. Follow the instructions in the [quantization guide](docs\u002FQuantization.md).\n\n## Benchmark Results\n\nHere are the evaluation results of our model on OmniDocBench. MonkeyOCR-3B uses DocLayoutYOLO as the structure detection model, while MonkeyOCR-3B* uses our trained structure detection model with improved Chinese performance.\n\n### 1. The end-to-end evaluation results of different tasks.\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth rowspan=\"2\">\u003Cstrong>Model\u003Cbr>Type\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth rowspan=\"2\">\u003Cstrong>Methods\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth colspan=\"2\">\u003Cstrong>Overall\u003Csup>Edit\u003C\u002Fsup>↓\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth colspan=\"2\">\u003Cstrong>Text\u003Csup>Edit\u003C\u002Fsup>↓\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth colspan=\"2\">\u003Cstrong>Formula\u003Csup>Edit\u003C\u002Fsup>↓\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth colspan=\"2\">\u003Cstrong>Table\u003Csup>TEDS\u003C\u002Fsup>↑\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth colspan=\"2\">\u003Cstrong>Table\u003Csup>Edit\u003C\u002Fsup>↓\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth colspan=\"2\">\u003Cstrong>Read Order\u003Csup>Edit\u003C\u002Fsup>↓\u003C\u002Fstrong>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Cth>\u003Cem>EN\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>ZH\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>EN\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>ZH\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>EN\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>ZH\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>EN\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>ZH\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>EN\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>ZH\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>EN\u003C\u002Fem>\u003C\u002Fth>\n\u003Cth>\u003Cem>ZH\u003C\u002Fem>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003Ctr>\n\u003Ctd rowspan=\"8\">\u003Cstrong>Pipeline\u003Cbr>Tools\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>MinerU\u003C\u002Ftd>\n\u003Ctd>0.150\u003C\u002Ftd>\n\u003Ctd>0.357\u003C\u002Ftd>\n\u003Ctd>0.061\u003C\u002Ftd>\n\u003Ctd>0.215\u003C\u002Ftd>\n\u003Ctd>0.278\u003C\u002Ftd>\n\u003Ctd>0.577\u003C\u002Ftd>\n\u003Ctd>78.6\u003C\u002Ftd>\n\u003Ctd>62.1\u003C\u002Ftd>\n\u003Ctd>0.180\u003C\u002Ftd>\n\u003Ctd>0.344\u003C\u002Ftd>\n\u003Ctd>0.079\u003C\u002Ftd>\n\u003Ctd>0.292\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Marker\u003C\u002Ftd>\n\u003Ctd>0.336\u003C\u002Ftd>\n\u003Ctd>0.556\u003C\u002Ftd>\n\u003Ctd>0.080\u003C\u002Ftd>\n\u003Ctd>0.315\u003C\u002Ftd>\n\u003Ctd>0.530\u003C\u002Ftd>\n\u003Ctd>0.883\u003C\u002Ftd>\n\u003Ctd>67.6\u003C\u002Ftd>\n\u003Ctd>49.2\u003C\u002Ftd>\n\u003Ctd>0.619\u003C\u002Ftd>\n\u003Ctd>0.685\u003C\u002Ftd>\n\u003Ctd>0.114\u003C\u002Ftd>\n\u003Ctd>0.340\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Mathpix\u003C\u002Ftd>\n\u003Ctd>0.191\u003C\u002Ftd>\n\u003Ctd>0.365\u003C\u002Ftd>\n\u003Ctd>0.105\u003C\u002Ftd>\n\u003Ctd>0.384\u003C\u002Ftd>\n\u003Ctd>0.306\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.454\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>77.0\u003C\u002Ftd>\n\u003Ctd>67.1\u003C\u002Ftd>\n\u003Ctd>0.243\u003C\u002Ftd>\n\u003Ctd>0.320\u003C\u002Ftd>\n\u003Ctd>0.108\u003C\u002Ftd>\n\u003Ctd>0.304\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Docling\u003C\u002Ftd>\n\u003Ctd>0.589\u003C\u002Ftd>\n\u003Ctd>0.909\u003C\u002Ftd>\n\u003Ctd>0.416\u003C\u002Ftd>\n\u003Ctd>0.987\u003C\u002Ftd>\n\u003Ctd>0.999\u003C\u002Ftd>\n\u003Ctd>1\u003C\u002Ftd>\n\u003Ctd>61.3\u003C\u002Ftd>\n\u003Ctd>25.0\u003C\u002Ftd>\n\u003Ctd>0.627\u003C\u002Ftd>\n\u003Ctd>0.810\u003C\u002Ftd>\n\u003Ctd>0.313\u003C\u002Ftd>\n\u003Ctd>0.837\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Pix2Text\u003C\u002Ftd>\n\u003Ctd>0.320\u003C\u002Ftd>\n\u003Ctd>0.528\u003C\u002Ftd>\n\u003Ctd>0.138\u003C\u002Ftd>\n\u003Ctd>0.356\u003C\u002Ftd>\n\u003Ctd>0.276\u003C\u002Ftd>\n\u003Ctd>0.611\u003C\u002Ftd>\n\u003Ctd>73.6\u003C\u002Ftd>\n\u003Ctd>66.2\u003C\u002Ftd>\n\u003Ctd>0.584\u003C\u002Ftd>\n\u003Ctd>0.645\u003C\u002Ftd>\n\u003Ctd>0.281\u003C\u002Ftd>\n\u003Ctd>0.499\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Unstructured\u003C\u002Ftd>\n\u003Ctd>0.586\u003C\u002Ftd>\n\u003Ctd>0.716\u003C\u002Ftd>\n\u003Ctd>0.198\u003C\u002Ftd>\n\u003Ctd>0.481\u003C\u002Ftd>\n\u003Ctd>0.999\u003C\u002Ftd>\n\u003Ctd>1\u003C\u002Ftd>\n\u003Ctd>0\u003C\u002Ftd>\n\u003Ctd>0.06\u003C\u002Ftd>\n\u003Ctd>1\u003C\u002Ftd>\n\u003Ctd>0.998\u003C\u002Ftd>\n\u003Ctd>0.145\u003C\u002Ftd>\n\u003Ctd>0.387\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>OpenParse\u003C\u002Ftd>\n\u003Ctd>0.646\u003C\u002Ftd>\n\u003Ctd>0.814\u003C\u002Ftd>\n\u003Ctd>0.681\u003C\u002Ftd>\n\u003Ctd>0.974\u003C\u002Ftd>\n\u003Ctd>0.996\u003C\u002Ftd>\n\u003Ctd>1\u003C\u002Ftd>\n\u003Ctd>64.8\u003C\u002Ftd>\n\u003Ctd>27.5\u003C\u002Ftd>\n\u003Ctd>0.284\u003C\u002Ftd>\n\u003Ctd>0.639\u003C\u002Ftd>\n\u003Ctd>0.595\u003C\u002Ftd>\n\u003Ctd>0.641\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>PP-StructureV3\u003C\u002Ftd>\n\u003Ctd>0.145\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.206\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.058\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.088\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.295\u003C\u002Ftd>\n\u003Ctd>0.535\u003C\u002Ftd>\n\u003Ctd>-\u003C\u002Ftd>\n\u003Ctd>-\u003C\u002Ftd>\n\u003Ctd>0.159\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.109\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.069\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.091\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd rowspan=\"8\">\u003Cstrong>Expert\u003Cbr>VLMs\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>GOT-OCR\u003C\u002Ftd>\n\u003Ctd>0.287\u003C\u002Ftd>\n\u003Ctd>0.411\u003C\u002Ftd>\n\u003Ctd>0.189\u003C\u002Ftd>\n\u003Ctd>0.315\u003C\u002Ftd>\n\u003Ctd>0.360\u003C\u002Ftd>\n\u003Ctd>0.528\u003C\u002Ftd>\n\u003Ctd>53.2\u003C\u002Ftd>\n\u003Ctd>47.2\u003C\u002Ftd>\n\u003Ctd>0.459\u003C\u002Ftd>\n\u003Ctd>0.520\u003C\u002Ftd>\n\u003Ctd>0.141\u003C\u002Ftd>\n\u003Ctd>0.280\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Nougat\u003C\u002Ftd>\n\u003Ctd>0.452\u003C\u002Ftd>\n\u003Ctd>0.973\u003C\u002Ftd>\n\u003Ctd>0.365\u003C\u002Ftd>\n\u003Ctd>0.998\u003C\u002Ftd>\n\u003Ctd>0.488\u003C\u002Ftd>\n\u003Ctd>0.941\u003C\u002Ftd>\n\u003Ctd>39.9\u003C\u002Ftd>\n\u003Ctd>0\u003C\u002Ftd>\n\u003Ctd>0.572\u003C\u002Ftd>\n\u003Ctd>1.000\u003C\u002Ftd>\n\u003Ctd>0.382\u003C\u002Ftd>\n\u003Ctd>0.954\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Mistral OCR\u003C\u002Ftd>\n\u003Ctd>0.268\u003C\u002Ftd>\n\u003Ctd>0.439\u003C\u002Ftd>\n\u003Ctd>0.072\u003C\u002Ftd>\n\u003Ctd>0.325\u003C\u002Ftd>\n\u003Ctd>0.318\u003C\u002Ftd>\n\u003Ctd>0.495\u003C\u002Ftd>\n\u003Ctd>75.8\u003C\u002Ftd>\n\u003Ctd>63.6\u003C\u002Ftd>\n\u003Ctd>0.600\u003C\u002Ftd>\n\u003Ctd>0.650\u003C\u002Ftd>\n\u003Ctd>0.083\u003C\u002Ftd>\n\u003Ctd>0.284\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>OLMOCR-sglang\u003C\u002Ftd>\n\u003Ctd>0.326\u003C\u002Ftd>\n\u003Ctd>0.469\u003C\u002Ftd>\n\u003Ctd>0.097\u003C\u002Ftd>\n\u003Ctd>0.293\u003C\u002Ftd>\n\u003Ctd>0.455\u003C\u002Ftd>\n\u003Ctd>0.655\u003C\u002Ftd>\n\u003Ctd>68.1\u003C\u002Ftd>\n\u003Ctd>61.3\u003C\u002Ftd>\n\u003Ctd>0.608\u003Ctd>0.652\u003C\u002Ftd>\n\u003Ctd>0.145\u003C\u002Ftd>\n\u003Ctd>0.277\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>SmolDocling-256M\u003C\u002Ftd>\n\u003Ctd>0.493\u003C\u002Ftd>\n\u003Ctd>0.816\u003C\u002Ftd>\n\u003Ctd>0.262\u003C\u002Ftd>\n\u003Ctd>0.838\u003C\u002Ftd>\n\u003Ctd>0.753\u003C\u002Ftd>\n\u003Ctd>0.997\u003C\u002Ftd>\n\u003Ctd>44.9\u003C\u002Ftd>\n\u003Ctd>16.5\u003C\u002Ftd>\n\u003Ctd>0.729\u003C\u002Ftd>\n\u003Ctd>0.907\u003C\u002Ftd>\n\u003Ctd>0.227\u003C\u002Ftd>\n\u003Ctd>0.522\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Dolphin\u003C\u002Ftd>\n\u003Ctd>0.206\u003C\u002Ftd>\n\u003Ctd>0.306\u003C\u002Ftd>\n\u003Ctd>0.107\u003C\u002Ftd>\n\u003Ctd>0.197\u003C\u002Ftd>\n\u003Ctd>0.447\u003C\u002Ftd>\n\u003Ctd>0.580\u003C\u002Ftd>\n\u003Ctd>77.3\u003C\u002Ftd>\n\u003Ctd>67.2\u003C\u002Ftd>\n\u003Ctd>0.180\u003C\u002Ftd>\n\u003Ctd>0.285\u003C\u002Ftd>\n\u003Ctd>0.091\u003C\u002Ftd>\n\u003Ctd>0.162\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>MinerU 2\u003C\u002Ftd>\n\u003Ctd>0.139\u003C\u002Ftd>\n\u003Ctd>0.240\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.047\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.109\u003C\u002Ftd>\n\u003Ctd>0.297\u003C\u002Ftd>\n\u003Ctd>0.536\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>82.5\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>79.0\u003C\u002Ftd>\n\u003Ctd>0.141\u003C\u002Ftd>\n\u003Ctd>0.195\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.069\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.118\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>OCRFlux\u003C\u002Ftd>\n\t\n\u003Ctd>0.195\u003C\u002Ftd>\n\u003Ctd>0.281\u003C\u002Ftd>\n\u003Ctd>0.064\u003C\u002Ftd>\n\u003Ctd>0.183\u003C\u002Ftd>\n\u003Ctd>0.379\u003C\u002Ftd>\n\u003Ctd>0.613\u003C\u002Ftd>\n\u003Ctd>71.6\u003C\u002Ftd>\n\u003Ctd>81.3\u003C\u002Ftd>\n\u003Ctd>0.253\u003C\u002Ftd>\n\u003Ctd>0.139\u003C\u002Ftd>\n\u003Ctd>0.086\u003C\u002Ftd>\n\u003Ctd>0.187\u003C\u002Ftd>\n\n\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd rowspan=\"3\">\u003Cstrong>General\u003Cbr>VLMs\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>GPT4o\u003C\u002Ftd>\n\u003Ctd>0.233\u003C\u002Ftd>\n\u003Ctd>0.399\u003C\u002Ftd>\n\u003Ctd>0.144\u003C\u002Ftd>\n\u003Ctd>0.409\u003C\u002Ftd>\n\u003Ctd>0.425\u003C\u002Ftd>\n\u003Ctd>0.606\u003C\u002Ftd>\n\u003Ctd>72.0\u003C\u002Ftd>\n\u003Ctd>62.9\u003C\u002Ftd>\n\u003Ctd>0.234\u003C\u002Ftd>\n\u003Ctd>0.329\u003C\u002Ftd>\n\u003Ctd>0.128\u003C\u002Ftd>\n\u003Ctd>0.251\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Qwen2.5-VL-7B\u003C\u002Ftd>\n\u003Ctd>0.312\u003C\u002Ftd>\n\u003Ctd>0.406\u003C\u002Ftd>\n\u003Ctd>0.157\u003C\u002Ftd>\n\u003Ctd>0.228\u003C\u002Ftd>\n\u003Ctd>0.351\u003C\u002Ftd>\n\u003Ctd>0.574\u003C\u002Ftd>\n\u003Ctd>76.4\u003C\u002Ftd>\n\u003Ctd>72.2\u003C\u002Ftd>\n\u003Ctd>0.588\u003C\u002Ftd>\n\u003Ctd>0.619\u003C\u002Ftd>\n\u003Ctd>0.149\u003C\u002Ftd>\n\u003Ctd>0.203\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>InternVL3-8B\u003C\u002Ftd>\n\u003Ctd>0.314\u003C\u002Ftd>\n\u003Ctd>0.383\u003C\u002Ftd>\n\u003Ctd>0.134\u003C\u002Ftd>\n\u003Ctd>0.218\u003C\u002Ftd>\n\u003Ctd>0.417\u003C\u002Ftd>\n\u003Ctd>0.563\u003C\u002Ftd>\n\u003Ctd>66.1\u003C\u002Ftd>\n\u003Ctd>73.1\u003C\u002Ftd>\n\u003Ctd>0.586\u003C\u002Ftd>\n\u003Ctd>0.564\u003C\u002Ftd>\n\u003Ctd>0.118\u003C\u002Ftd>\n\u003Ctd>0.186\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd rowspan=\"4\">\u003Cstrong>Mix\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>MonkeyOCR-3B \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR\u002Fblob\u002Fmain\u002FStructure\u002Fdoclayout_yolo_docstructbench_imgsz1280_2501.pt\">[Weight]\u003C\u002Fa>\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.140\u003C\u002Ftd>\n\u003Ctd>0.297\u003C\u002Ftd>\n\u003Ctd>0.058\u003C\u002Ftd>\n\u003Ctd>0.185\u003C\u002Ftd>\n\u003Ctd>0.238\u003C\u002Ftd>\n\u003Ctd>0.506\u003C\u002Ftd>\n\u003Ctd>80.2\u003C\u002Ftd>\n\u003Ctd>77.7\u003C\u002Ftd>\n\u003Ctd>0.170\u003C\u002Ftd>\n\u003Ctd>0.253\u003C\u002Ftd>\n\u003Ctd>0.093\u003C\u002Ftd>\n\u003Ctd>0.244\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>MonkeyOCR-3B* \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR\u002Fblob\u002Fmain\u002FStructure\u002Flayout_zh.pt\">[Weight]\u003C\u002Fa>\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.154\u003C\u002Ftd>\n\u003Ctd>0.277\u003C\u002Ftd>\n\u003Ctd>0.073\u003C\u002Ftd>\n\u003Ctd>0.134\u003C\u002Ftd>\n\u003Ctd>0.255\u003C\u002Ftd>\n\u003Ctd>0.529\u003C\u002Ftd>\n\u003Ctd>78.2\u003C\u002Ftd>\n\u003Ctd>76.2\u003C\u002Ftd>\n\u003Ctd>0.182\u003C\u002Ftd>\n\u003Ctd>0.262\u003C\u002Ftd>\n\u003Ctd>0.105\u003C\u002Ftd>\n\u003Ctd>0.183\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>MonkeyOCR-pro-3B \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR-pro-3B\">[Weight]\u003C\u002Fa>\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.138\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.206\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.067\u003C\u002Ftd>\n\u003Ctd>0.107\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.246\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.421\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>81.5\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>87.5\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.139\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.111\u003C\u002Ftd>\n\u003Ctd>0.100\u003C\u002Ftd>\n\u003Ctd>0.185\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>MonkeyOCR-pro-1.2B \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR-pro-1.2B\">[Weight]\u003C\u002Fa>\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.153\u003C\u002Ftd>\n\u003Ctd>0.223\u003C\u002Ftd>\n\u003Ctd>0.066\u003C\u002Ftd>\n\u003Ctd>0.123\u003C\u002Ftd>\n\u003Ctd>0.272\u003C\u002Ftd>\n\u003Ctd>0.449\u003C\u002Ftd>\n\u003Ctd>76.5\u003C\u002Ftd>\n\u003Ctd>83.7\u003C\u002Ftd>\n\u003Ctd>0.176\u003C\u002Ftd>\n\u003Ctd>0.131\u003C\u002Ftd>\n\u003Ctd>0.097\u003C\u002Ftd>\n\u003Ctd>0.187\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n### 2. The end-to-end text recognition performance across 9 PDF page types.\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth>\u003Cstrong>Model\u003Cbr>Type\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Models\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Book\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Slides\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Financial\u003Cbr>Report\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Textbook\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Exam\u003Cbr>Paper\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Magazine\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Academic\u003Cbr>Papers\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Notes\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Newspaper\u003C\u002Fstrong>\u003C\u002Fth>\n\u003Cth>\u003Cstrong>Overall\u003C\u002Fstrong>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003Ctr>\n\u003Ctd rowspan=\"3\">\u003Cstrong>Pipeline\u003Cbr>Tools\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>MinerU\u003C\u002Ftd>\n\u003Ctd>0.055\u003C\u002Ftd>\n\u003Ctd>0.124\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.033\u003C\u002Fu>\u003C\u002Ftd>\n\u003Ctd>0.102\u003C\u002Ftd>\n\u003Ctd>0.159\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.072\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.025\u003C\u002Fu>\u003C\u002Ftd>\n\u003Ctd>0.984\u003C\u002Ftd>\n\u003Ctd>0.171\u003C\u002Ftd>\n\u003Ctd>0.206\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Marker\u003C\u002Ftd>\n\u003Ctd>0.074\u003C\u002Ftd>\n\u003Ctd>0.340\u003C\u002Ftd>\n\u003Ctd>0.089\u003C\u002Ftd>\n\u003Ctd>0.319\u003C\u002Ftd>\n\u003Ctd>0.452\u003C\u002Ftd>\n\u003Ctd>0.153\u003C\u002Ftd>\n\u003Ctd>0.059\u003C\u002Ftd>\n\u003Ctd>0.651\u003C\u002Ftd>\n\u003Ctd>0.192\u003C\u002Ftd>\n\u003Ctd>0.274\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Mathpix\u003C\u002Ftd>\n\u003Ctd>0.131\u003C\u002Ftd>\n\u003Ctd>0.220\u003C\u002Ftd>\n\u003Ctd>0.202\u003C\u002Ftd>\n\u003Ctd>0.216\u003C\u002Ftd>\n\u003Ctd>0.278\u003C\u002Ftd>\n\u003Ctd>0.147\u003C\u002Ftd>\n\u003Ctd>0.091\u003C\u002Ftd>\n\u003Ctd>0.634\u003C\u002Ftd>\n\u003Ctd>0.690\u003C\u002Ftd>\n\u003Ctd>0.300\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd rowspan=\"4\">\u003Cstrong>Expert\u003Cbr>VLMs\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>GOT-OCR\u003C\u002Ftd>\n\u003Ctd>0.111\u003C\u002Ftd>\n\u003Ctd>0.222\u003C\u002Ftd>\n\u003Ctd>0.067\u003C\u002Ftd>\n\u003Ctd>0.132\u003C\u002Ftd>\n\u003Ctd>0.204\u003C\u002Ftd>\n\u003Ctd>0.198\u003C\u002Ftd>\n\u003Ctd>0.179\u003C\u002Ftd>\n\u003Ctd>0.388\u003C\u002Ftd>\n\u003Ctd>0.771\u003C\u002Ftd>\n\u003Ctd>0.267\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Nougat\u003C\u002Ftd>\n\u003Ctd>0.734\u003C\u002Ftd>\n\u003Ctd>0.958\u003C\u002Ftd>\n\u003Ctd>1.000\u003C\u002Ftd>\n\u003Ctd>0.820\u003C\u002Ftd>\n\u003Ctd>0.930\u003C\u002Ftd>\n\u003Ctd>0.830\u003C\u002Ftd>\n\u003Ctd>0.214\u003C\u002Ftd>\n\u003Ctd>0.991\u003C\u002Ftd>\n\u003Ctd>0.871\u003C\u002Ftd>\n\u003Ctd>0.806\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Dolphin\u003C\u002Ftd>\n\u003Ctd>0.091\u003C\u002Ftd>\n\u003Ctd>0.131\u003C\u002Ftd>\n\u003Ctd>0.057\u003C\u002Ftd>\n\u003Ctd>0.146\u003C\u002Ftd>\n\u003Ctd>0.231\u003C\u002Ftd>\n\u003Ctd>0.121\u003C\u002Ftd>\n\u003Ctd>0.074\u003C\u002Ftd>\n\u003Ctd>0.363\u003C\u002Ftd>\n\u003Ctd>0.307\u003C\u002Ftd>\n\u003Ctd>0.177\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>OCRFlux\u003C\u002Ftd>\n\u003Ctd>0.068\u003C\u002Ftd>\n\u003Ctd>0.125\u003C\u002Ftd>\n\u003Ctd>0.092\u003C\u002Ftd>\n\u003Ctd>0.102\u003C\u002Ftd>\n\u003Ctd>0.119\u003C\u002Ftd>\n\u003Ctd>0.083\u003C\u002Ftd>\n\u003Ctd>0.047\u003C\u002Ftd>\n\u003Ctd>0.223\u003C\u002Ftd>\n\u003Ctd>0.536\u003C\u002Ftd>\n\u003Ctd>0.149\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd rowspan=\"3\">\u003Cstrong>General\u003Cbr>VLMs\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>GPT4o\u003C\u002Ftd>\n\u003Ctd>0.157\u003C\u002Ftd>\n\u003Ctd>0.163\u003C\u002Ftd>\n\u003Ctd>0.348\u003C\u002Ftd>\n\u003Ctd>0.187\u003C\u002Ftd>\n\u003Ctd>0.281\u003C\u002Ftd>\n\u003Ctd>0.173\u003C\u002Ftd>\n\u003Ctd>0.146\u003C\u002Ftd>\n\u003Ctd>0.607\u003C\u002Ftd>\n\u003Ctd>0.751\u003C\u002Ftd>\n\u003Ctd>0.316\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Qwen2.5-VL-7B\u003C\u002Ftd>\n\u003Ctd>0.148\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.053\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.111\u003C\u002Ftd>\n\u003Ctd>0.137\u003C\u002Ftd>\n\u003Ctd>0.189\u003C\u002Ftd>\n\u003Ctd>0.117\u003C\u002Ftd>\n\u003Ctd>0.134\u003C\u002Ftd>\n\u003Ctd>0.204\u003C\u002Ftd>\n\u003Ctd>0.706\u003C\u002Ftd>\n\u003Ctd>0.205\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>InternVL3-8B\u003C\u002Ftd>\n\u003Ctd>0.163\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.056\u003C\u002Fu>\u003C\u002Ftd>\n\u003Ctd>0.107\u003C\u002Ftd>\n\u003Ctd>0.109\u003C\u002Ftd>\n\u003Ctd>0.129\u003C\u002Ftd>\n\u003Ctd>0.100\u003C\u002Ftd>\n\u003Ctd>0.159\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.150\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.681\u003C\u002Ftd>\n\u003Ctd>0.188\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd rowspan=\"4\">\u003Cstrong>Mix\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>MonkeyOCR-3B \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR\u002Fblob\u002Fmain\u002FStructure\u002Fdoclayout_yolo_docstructbench_imgsz1280_2501.pt\">[Weight]\u003C\u002Fa>\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.046\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.120\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.024\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.100\u003C\u002Ftd>\n\u003Ctd>0.129\u003C\u002Ftd>\n\u003Ctd>0.086\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.024\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.643\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.131\u003C\u002Fu>\u003C\u002Ftd>\n\u003Ctd>0.155\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>MonkeyOCR-3B* \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR\u002Fblob\u002Fmain\u002FStructure\u002Flayout_zh.pt\">[Weight]\u003C\u002Fa>\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.054\u003C\u002Fu>\u003C\u002Ftd>\n\u003Ctd>0.203\u003C\u002Ftd>\n\u003Ctd>0.038\u003C\u002Ftd>\n\u003Ctd>0.112\u003C\u002Ftd>\n\u003Ctd>0.138\u003C\u002Ftd>\n\u003Ctd>0.111\u003C\u002Ftd>\n\u003Ctd>0.032\u003C\u002Ftd>\n\u003Ctd>0.194\u003C\u002Ftd>\n\u003Ctd>0.136\u003C\u002Ftd>\n\u003Ctd>0.120\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>MonkeyOCR-pro-3B \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR-pro-3B\">[Weight]\u003C\u002Fa>\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.084\u003C\u002Ftd>\n\u003Ctd>0.129\u003C\u002Ftd>\n\u003Ctd>0.060\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.090\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.107\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.073\u003C\u002Fu>\u003C\u002Ftd>\n\u003Ctd>0.050\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.171\u003C\u002Fu>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.107\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>0.100\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>MonkeyOCR-pro-1.2B \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR-pro-1.2B\">[Weight]\u003C\u002Fa>\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>0.087\u003C\u002Ftd>\n\u003Ctd>0.142\u003C\u002Ftd>\n\u003Ctd>0.059\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.093\u003C\u002Fu>\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.115\u003C\u002Fu>\u003C\u002Ftd>\n\u003Ctd>0.085\u003C\u002Ftd>\n\u003Ctd>0.045\u003C\u002Ftd>\n\u003Ctd>0.226\u003C\u002Ftd>\n\u003Ctd>0.122\u003C\u002Ftd>\n\u003Ctd>\u003Cu>0.112\u003C\u002Fu>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### 3. The evaluation results of olmOCR-bench.\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth>Model\u003C\u002Fth>\n\u003Cth>ArXiv\u003C\u002Fth>\n\u003Cth>Old Scans\u003Cbr>Math\u003C\u002Fth>\n\u003Cth>Tables\u003C\u002Fth>\n\u003Cth>Old Scans\u003C\u002Fth>\n\u003Cth>Headers and\u003Cbr>Footers\u003C\u002Fth>\n\u003Cth>Multi\u003Cbr>column\u003C\u002Fth>\n\u003Cth>Long Tiny\u003Cbr>Text\u003C\u002Fth>\n\u003Cth>Base\u003C\u002Fth>\n\u003Cth>Overall\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003Ctr>\n\u003Ctd>GOT OCR\u003C\u002Ftd>\n\u003Ctd>52.7\u003C\u002Ftd>\n\u003Ctd>52.0\u003C\u002Ftd>\n\u003Ctd>0.2\u003C\u002Ftd>\n\u003Ctd>22.1\u003C\u002Ftd>\n\u003Ctd>93.6\u003C\u002Ftd>\n\u003Ctd>42.0\u003C\u002Ftd>\n\u003Ctd>29.9\u003C\u002Ftd>\n\u003Ctd>94.0\u003C\u002Ftd>\n\u003Ctd>48.3 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Marker\u003C\u002Ftd>\n\u003Ctd>76.0\u003C\u002Ftd>\n\u003Ctd>57.9\u003C\u002Ftd>\n\u003Ctd>57.6\u003C\u002Ftd>\n\u003Ctd>27.8\u003C\u002Ftd>\n\u003Ctd>84.9\u003C\u002Ftd>\n\u003Ctd>72.9\u003C\u002Ftd>\n\u003Ctd>84.6\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>99.1\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>70.1 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>MinerU\u003C\u002Ftd>\n\u003Ctd>75.4\u003C\u002Ftd>\n\u003Ctd>47.4\u003C\u002Ftd>\n\u003Ctd>60.9\u003C\u002Ftd>\n\u003Ctd>17.3\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>96.6\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>59.0\u003C\u002Ftd>\n\u003Ctd>39.1\u003C\u002Ftd>\n\u003Ctd>96.6\u003C\u002Ftd>\n\u003Ctd>61.5 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Mistral OCR\u003C\u002Ftd>\n\u003Ctd>77.2\u003C\u002Ftd>\n\u003Ctd>67.5\u003C\u002Ftd>\n\u003Ctd>60.6\u003C\u002Ftd>\n\u003Ctd>29.3\u003C\u002Ftd>\n\u003Ctd>93.6\u003C\u002Ftd>\n\u003Ctd>71.3\u003C\u002Ftd>\n\u003Ctd>77.1\u003C\u002Ftd>\n\u003Ctd>99.4\u003C\u002Ftd>\n\u003Ctd>72.0 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Nanonets OCR\u003C\u002Ftd>\n\u003Ctd>67.0\u003C\u002Ftd>\n\u003Ctd>68.6\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>77.7\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>39.5\u003C\u002Ftd>\n\u003Ctd>40.7\u003C\u002Ftd>\n\u003Ctd>69.9\u003C\u002Ftd>\n\u003Ctd>53.4\u003C\u002Ftd>\n\u003Ctd>99.3\u003C\u002Ftd>\n\u003Ctd>64.5 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>GPT-4o\u003Cbr>(No Anchor)\u003C\u002Ftd>\n\u003Ctd>51.5\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>75.5\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>69.1\u003C\u002Ftd>\n\u003Ctd>40.9\u003C\u002Ftd>\n\u003Ctd>94.2\u003C\u002Ftd>\n\u003Ctd>68.9\u003C\u002Ftd>\n\u003Ctd>54.1\u003C\u002Ftd>\n\u003Ctd>96.7\u003C\u002Ftd>\n\u003Ctd>68.9 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>GPT-4o\u003Cbr>(Anchored)\u003C\u002Ftd>\n\u003Ctd>53.5\u003C\u002Ftd>\n\u003Ctd>74.5\u003C\u002Ftd>\n\u003Ctd>70.0\u003C\u002Ftd>\n\u003Ctd>40.7\u003C\u002Ftd>\n\u003Ctd>93.8\u003C\u002Ftd>\n\u003Ctd>69.3\u003C\u002Ftd>\n\u003Ctd>60.6\u003C\u002Ftd>\n\u003Ctd>96.8\u003C\u002Ftd>\n\u003Ctd>69.9 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Gemini Flash 2\u003Cbr>(No Anchor)\u003C\u002Ftd>\n\u003Ctd>32.1\u003C\u002Ftd>\n\u003Ctd>56.3\u003C\u002Ftd>\n\u003Ctd>61.4\u003C\u002Ftd>\n\u003Ctd>27.8\u003C\u002Ftd>\n\u003Ctd>48.0\u003C\u002Ftd>\n\u003Ctd>58.7\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>84.4\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>94.0\u003C\u002Ftd>\n\u003Ctd>57.8 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Gemini Flash 2\u003Cbr>(Anchored)\u003C\u002Ftd>\n\u003Ctd>54.5\u003C\u002Ftd>\n\u003Ctd>56.1\u003C\u002Ftd>\n\u003Ctd>72.1\u003C\u002Ftd>\n\u003Ctd>34.2\u003C\u002Ftd>\n\u003Ctd>64.7\u003C\u002Ftd>\n\u003Ctd>61.5\u003C\u002Ftd>\n\u003Ctd>71.5\u003C\u002Ftd>\n\u003Ctd>95.6\u003C\u002Ftd>\n\u003Ctd>63.8 ± 1.2\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Qwen 2 VL\u003Cbr>(No Anchor)\u003C\u002Ftd>\n\u003Ctd>19.7\u003C\u002Ftd>\n\u003Ctd>31.7\u003C\u002Ftd>\n\u003Ctd>24.2\u003C\u002Ftd>\n\u003Ctd>17.1\u003C\u002Ftd>\n\u003Ctd>88.9\u003C\u002Ftd>\n\u003Ctd>8.3\u003C\u002Ftd>\n\u003Ctd>6.8\u003C\u002Ftd>\n\u003Ctd>55.5\u003C\u002Ftd>\n\u003Ctd>31.5 ± 0.9\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Qwen 2.5 VL\u003Cbr>(No Anchor)\u003C\u002Ftd>\n\u003Ctd>63.1\u003C\u002Ftd>\n\u003Ctd>65.7\u003C\u002Ftd>\n\u003Ctd>67.3\u003C\u002Ftd>\n\u003Ctd>38.6\u003C\u002Ftd>\n\u003Ctd>73.6\u003C\u002Ftd>\n\u003Ctd>68.3\u003C\u002Ftd>\n\u003Ctd>49.1\u003C\u002Ftd>\n\u003Ctd>98.3\u003C\u002Ftd>\n\u003Ctd>65.5 ± 1.2\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>olmOCR v0.1.75\u003Cbr>(No Anchor)\u003C\u002Ftd>\n\u003Ctd>71.5\u003C\u002Ftd>\n\u003Ctd>71.4\u003C\u002Ftd>\n\u003Ctd>71.4\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>42.8\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>94.1\u003C\u002Ftd>\n\u003Ctd>77.7\u003C\u002Ftd>\n\u003Ctd>71.0\u003C\u002Ftd>\n\u003Ctd>97.8\u003C\u002Ftd>\n\u003Ctd>74.7 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>olmOCR v0.1.75\u003Cbr>(Anchored)\u003C\u002Ftd>\n\u003Ctd>74.9\u003C\u002Ftd>\n\u003Ctd>71.2\u003C\u002Ftd>\n\u003Ctd>71.0\u003C\u002Ftd>\n\u003Ctd>42.2\u003C\u002Ftd>\n\u003Ctd>94.5\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>78.3\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>73.3\u003C\u002Ftd>\n\u003Ctd>98.3\u003C\u002Ftd>\n\u003Ctd>75.5 ± 1.0\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>MonkeyOCR-pro-3B \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR-pro-3B\">[Weight]\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>83.8\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>68.8\u003C\u002Ftd>\n\u003Ctd>74.6\u003C\u002Ftd>\n\u003Ctd>36.1\u003C\u002Ftd>\n\u003Ctd>91.2\u003C\u002Ftd>\n\u003Ctd>76.6\u003C\u002Ftd>\n\u003Ctd>80.1\u003C\u002Ftd>\n\u003Ctd>95.3\u003C\u002Ftd>\n\u003Ctd>\u003Cstrong>75.8 ± 1.0\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>MonkeyOCR-pro-1.2B \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fecho840\u002FMonkeyOCR-pro-1.2B\">[Weight]\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd>80.5\u003C\u002Ftd>\n\u003Ctd>62.9\u003C\u002Ftd>\n\u003Ctd>71.1\u003C\u002Ftd>\n\u003Ctd>32.9\u003C\u002Ftd>\n\u003Ctd>92.2\u003C\u002Ftd>\n\u003Ctd>68.3\u003C\u002Ftd>\n\u003Ctd>74.0\u003C\u002Ftd>\n\u003Ctd>92.6\u003C\u002Ftd>\n\u003Ctd>71.8 ± 1.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## Visualization Demo\n\nGet a Quick Hands-On Experience with Our Demo:  http:\u002F\u002Fvlrlabmonkey.xyz:8891 (The latest model is available for selection)\n\n> Our demo is simple and easy to use:\n>\n> 1. Upload a PDF or image.\n> 2. Click “Parse (解析)” to let the model perform structure detection, content recognition, and relationship prediction on the input document. The final output will be a markdown-formatted version of the document.\n> 3. Select a prompt and click “Test by prompt” to let the model perform content recognition on the image based on the selected prompt.\n\n\n\n### Support diverse Chinese and English PDF types\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"asserts\u002FVisualization.GIF?raw=true\" width=\"600\"\u002F>\n\u003C\u002Fp>\n\n### Example for formula document\n\u003Cimg src=\".\u002Fasserts\u002FExample_for_formula_document.jpg\" border=\"0\">\n\n### Example for table document\n\u003Cimg src=\".\u002Fasserts\u002FExample_for_table_document.png\" border=\"0\">\n\n### Example for newspaper\n\u003Cimg src=\".\u002Fasserts\u002FExample_for_newspaper.png\" border=\"0\">\n\n### Example for financial report\n\u003Cimg src=\".\u002Fasserts\u002FExample_for_financial_report_01.png\" border=\"0\">\n\u003Cimg src=\".\u002Fasserts\u002FExample_for_financial_report_02.png\" border=\"0\">\n\n## Citing MonkeyOCR\n\nIf you wish to refer to the baseline results published here, please use the following BibTeX entries:\n\n```BibTeX\n@misc{li2025monkeyocrdocumentparsingstructurerecognitionrelation,\n      title={MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm}, \n      author={Zhang Li and Yuliang Liu and Qiang Liu and Zhiyin Ma and Ziyang Zhang and Shuo Zhang and Zidun Guo and Jiarui Zhang and Xinyu Wang and Xiang Bai},\n      year={2025},\n      eprint={2506.05218},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.05218}, \n}\n@misc{zheng2026multimodalocrparsedocuments,\n      title={Multimodal OCR: Parse Anything from Documents}, \n      author={Handong Zheng and Yumeng Li and Kaile Zhang and Liang Xin and Guangwei Zhao and Hao Liu and Jiayu Chen and Jie Lou and Qi Fu and Rui Yang and Shuo Jiang and Weijian Luo and Weijie Su and Weijun Zhang and Xingyu Zhu and Yabin Li and Yiwei ma and Yu Chen and Yuqiu Ji and Zhaohui Yu and Guang Yang and Colin Zhang and Lei Zhang and Yuliang Liu and Xiang Bai},\n      year={2026},\n      eprint={2603.13032},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.13032}, \n}\n```\n\n\n\n## Acknowledgments\nWe would like to thank [MinerU](https:\u002F\u002Fgithub.com\u002Fopendatalab\u002FMinerU), [DocLayout-YOLO](https:\u002F\u002Fgithub.com\u002Fopendatalab\u002FDocLayout-YOLO), [PyMuPDF](https:\u002F\u002Fgithub.com\u002Fpymupdf\u002FPyMuPDF), [layoutreader](https:\u002F\u002Fgithub.com\u002Fppaanngggg\u002Flayoutreader), [Qwen2.5-VL](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-VL), [LMDeploy](https:\u002F\u002Fgithub.com\u002FInternLM\u002Flmdeploy), [PP-StructureV3](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleOCR), [PP-DocLayout_plus-L](https:\u002F\u002Fhuggingface.co\u002FPaddlePaddle\u002FPP-DocLayout_plus-L), and [InternVL3](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL) for providing base code and models, as well as their contributions to this field. We also thank [M6Doc](https:\u002F\u002Fgithub.com\u002FHCIILAB\u002FM6Doc), [DocLayNet](https:\u002F\u002Fgithub.com\u002FDS4SD\u002FDocLayNet), [CDLA](https:\u002F\u002Fgithub.com\u002Fbuptlihang\u002FCDLA), [D4LA](https:\u002F\u002Fgithub.com\u002FAlibabaResearch\u002FAdvancedLiterateMachinery), [DocGenome](https:\u002F\u002Fgithub.com\u002FAlpha-Innovator\u002FDocGenome), [PubTabNet](https:\u002F\u002Fgithub.com\u002Fibm-aur-nlp\u002FPubTabNet), and [UniMER-1M](https:\u002F\u002Fgithub.com\u002Fopendatalab\u002FUniMERNet) for providing valuable datasets. We also thank everyone who contributed to this open-source effort.\n\n## Limitation\nCurrently, MonkeyOCR do not yet fully support for photographed text, handwritten content, Traditional Chinese characters, or multilingual text. We plan to consider adding support for these features in future public releases. Additionally, our model is deployed on a single GPU, so if too many users upload files at the same time, issues like “This application is currently busy” may occur. The processing time shown on the demo page does not reflect computation time alone—it also includes result uploading and other overhead. During periods of high traffic, this time may be longer. The inference speeds of MonkeyOCR, MinerU, and Qwen2.5 VL-7B were measured on an H800 GPU.\n\n## Copyright\nPlease don’t hesitate to share your valuable feedback — it’s a key motivation that drives us to continuously improve our framework. Note: Our model is intended for academic research and non-commercial use only. If you are interested in faster (smaller) or stronger one, please contact us at xbai@hust.edu.cn or ylliu@hust.edu.cn.\n","MonkeyOCR 是一个基于LMM的轻量级文档解析模型。它采用结构识别关系三元组范式，能够高效准确地从复杂文档中提取信息。项目使用Python开发，具有良好的可扩展性和易用性，支持多种文档格式，并在HuggingFace等平台上提供了预训练模型。适用于需要自动化处理和分析大量文档的场景，如金融、法律和教育等领域，能够显著提高工作效率和准确性。",2,"2026-06-11 03:40:04","high_star"]