[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-71904":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":18,"stars30d":19,"stars90d":16,"forks30d":16,"starsTrendScore":20,"compositeScore":21,"rankGlobal":10,"rankLanguage":10,"license":22,"archived":23,"fork":23,"defaultBranch":24,"hasWiki":23,"hasPages":23,"topics":25,"createdAt":10,"pushedAt":10,"updatedAt":29,"readmeContent":30,"aiSummary":31,"trendingCount":16,"starSnapshotCount":16,"syncStatus":32,"lastSyncTime":33,"discoverSource":34},71904,"MiniCPM-V","OpenBMB\u002FMiniCPM-V","OpenBMB","A Pocket-Sized MLLM for Ultra-Efficient Image and Video Understanding on Your Phone","",null,"Python",25596,2006,166,31,0,16,71,1006,60,119.91,"Apache License 2.0",false,"main",[26,27,28],"minicpm","minicpm-v","multi-modal","2026-06-12 04:01:02","\u003Cdiv align=\"center\">\n\n\u003Cimg src=\".\u002Fassets\u002Fminicpm_v_and_minicpm_o_title.png\" width=\"500em\" >\u003C\u002Fimg> \n\n**A Pocket-Sized MLLM for Ultra-Efficient Image and Video Understanding on Your Phone**\n\n  \u003Cstrong>[中文](.\u002FREADME_zh.md) |\n  English\u003C\u002Fstrong>\n\n\n\n\u003Cspan style=\"display: inline-flex; align-items: center; margin-right: 2px;\">\n  \u003Cimg src=\".\u002Fassets\u002Ffeishu_logo.png\" alt=\"feishu\" width=\"15\" height=\"15\" style=\"margin-right: 4px;\">\n  \u003Ca href=\".\u002Fassets\u002Ffeishu_qrcode.png\" target=\"_blank\"> Feishu (Lark)\u003C\u002Fa> &nbsp;|\n\u003C\u002Fspan>\n&nbsp;\n\u003Cspan style=\"display: inline-flex; align-items: center; margin-left: -8px;\">\n\u003Cimg src=\".\u002Fassets\u002Fdiscord.png\" alt=\"Discord\" style=\"margin-right: 4px;\">\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FpBZuTA3hj\" target=\"_blank\"> Discord\u003C\u002Fa> &nbsp;\n\u003C\u002Fspan>\n\n\n\u003Cp align=\"center\">\n   MiniCPM-V 4.6 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002FMiniCPM-V-4.6\">🤗\u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fopenbmb\u002FMiniCPM-V-4.6-Demo\">🤖\u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-V-Apps\u002Fblob\u002Fmain\u002FDOWNLOAD.md\">📱\u003C\u002Fa> | MiniCPM-o 4.5 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002FMiniCPM-o-4_5\">🤗\u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fopenbmb.github.io\u002FMiniCPM-o-Demo\u002F\">📞\u003C\u002Fa> \u003Ca href=\"https:\u002F\u002Fminicpmo45.modelbest.cn\">🤖\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2604.27393\">📄 Technical Report\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenSQZ\u002FMiniCPM-V-Cookbook\">🍳 Cookbook\u003C\u002Fa> | \u003Ca href=\".\u002Fdocs\u002Fapi.md\">🌐 API\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n**MiniCPM-V** and **MiniCPM-o** are multimodal LLM series designed for **strong performance and efficient deployment on devices**. MiniCPM-V focuses on efficient vision-language understanding across image, video and text inputs. MiniCPM-o extends the family toward real-time end-to-end omnimodal interaction with streaming video and audio inputs plus text and speech outputs. The most notable models in the series currently include:\n\n\n- **MiniCPM-V 4.6**: 🔥🔥🔥 The latest and most efficient model in the MiniCPM-V series. With a total of 1.3B parameters, it surpasses larger models like Gemma4-E2B-it in performance, while showing superior efficiency than smaller models like Qwen3.5-0.8B (achieving ~1.5x token throughput). Powered by the latest **intra-ViT early compression technique** in [LLaVA-UHD v4](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2605.08985), MiniCPM-V 4.6 **reduces the visual encoding computation cost by more than 50%**,  and supports **mixed 4x\u002F16x visual token compression rate** for a more flexible performance-efficiency trade-off in different tasks. The model can be deployed across **common mobile platforms, including iOS, Android and HarmonyOS**, with edge adaptation code open-sourced.\n\n- **MiniCPM-o 4.5**: ⭐️⭐️⭐️ The latest and most capable model in the MiniCPM-o series. With a total of 9B parameters, this end-to-end model **approaches Gemini 2.5 Flash in vision, speech, and full-duplex multimodal live streaming**, making it one of the most versatile and performant models in the open-source community. The new full-duplex multimodal live streaming capability means that the output streams (speech and text), and the real-time input streams (video and audio) do not block each other. This **enables MiniCPM-o 4.5 to see, listen, and speak simultaneously** in a real-time omnimodal conversation, and perform **proactive interactions** such as proactive reminding.\n\n\n\n\n## News \u003C!-- omit in toc -->\n\n* [2026.05.17] ⭐️⭐️⭐️ We release the [API service](.\u002Fdocs\u002Fapi.md) of MiniCPM-V 4.6 and MiniCPM-o 4.5, and a **public free API key** for MiniCPM-V 4.6 is available for everyone!\n* [2026.05.11] 🔥🔥🔥 We open-source MiniCPM-V 4.6, with mixed 4x\u002F16x visual token compression. Powered by strong encoding efficiency and its lightweight 1.3B scale, it is our most edge-deployment-friendly model to date, achieving ~1.5x token throughput compared to Qwen3.5 0.8B. Try it now!\n* [2026.02.06] 🥳 🥳 🥳 We open-sourced a realtime web demo deployable on your own devices like Mac or GPU. [Try it now](#web-demo-deployment)!\n* [2026.02.03] 🔥🔥🔥 We open-source MiniCPM-o 4.5, which matches Gemini 2.5 Flash on vision and speech, and supports full-duplex multimodal live streaming. Try it now!\n* [2025.08.26] 🔥🔥🔥 We open-source MiniCPM-V 4.5, which outperforms GPT-4o-latest, Gemini-2.0 Pro, and Qwen2.5-VL 72B. It advances popular capabilities of MiniCPM-V, and brings useful new features. Try it now!\n* [2025.08.01] ⭐️⭐️⭐️ We open-sourced the [MiniCPM-V & o Cookbook](https:\u002F\u002Fgithub.com\u002FOpenSQZ\u002FMiniCPM-V-CookBook)! It provides comprehensive guides for diverse user scenarios, paired with our new [Docs Site](https:\u002F\u002Fminicpm-o.readthedocs.io\u002Fen\u002Flatest\u002Findex.html) for smoother onboarding.\n* [2025.03.01] 🚀🚀🚀 RLAIF-V, the alignment technique of MiniCPM-o, is accepted by CVPR 2025 Highlights！The [code](https:\u002F\u002Fgithub.com\u002FRLHF-V\u002FRLAIF-V), [dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopenbmb\u002FRLAIF-V-Dataset), [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17220) are open-sourced!\n* [2025.01.19] ⭐️⭐️⭐️ MiniCPM-o tops GitHub Trending and reaches top-2 on Hugging Face Trending!\n* [2024.05.23] 🔥🔥🔥 MiniCPM-V tops GitHub Trending and Hugging Face Trending! Our demo, recommended by Hugging Face Gradio’s official account, is available [here](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fopenbmb\u002FMiniCPM-Llama3-V-2_5). Come and try it out!\n\n\u003Cbr>\n\n\u003Cdetails> \n\u003Csummary>Click to view more news.\u003C\u002Fsummary>\n\n* [2026.05.07] 📢📢📢 We release the MiniCPM-o 4.5 technical report, introducing the key techniques behind its real-time full-duplex omni-modal interaction. Read it [here](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2604.27393).\n* [2026.02.05] 📢📢📢 We note the web demo may experience latency issues due to network conditions. We are working actively to provide a Docker image for local deployment of the real-time interactive Demo as soon as possible. Please stay tuned!\n* [2025.09.18] 📢📢📢 MiniCPM-V 4.5 technical report is now released! See [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.18154).\n* [2025.09.01] ⭐️⭐️⭐️ MiniCPM-V 4.5 has been officially supported by [llama.cpp](https:\u002F\u002Fgithub.com\u002Fggml-org\u002Fllama.cpp\u002Fpull\u002F15575), [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Fpull\u002F23586), and [LLaMA-Factory](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FLLaMA-Factory\u002Fpull\u002F9022). You are welcome to use it directly through these official channels! Support for additional frameworks such as [Ollama](https:\u002F\u002Fgithub.com\u002Follama\u002Follama\u002Fpull\u002F12078) and [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\u002Fpull\u002F9610) is actively in progress.\n* [2025.08.02] 🚀🚀🚀 We open-source MiniCPM-V 4.0, which outperforms GPT-4.1-mini-20250414 in image understanding. It advances popular features of MiniCPM-V 2.6, and largely improves the efficiency. We also open-source the iOS App on iPhone and iPad. Try it now!\n* [2025.06.20] ⭐️⭐️⭐️ Our official [Ollama repository](https:\u002F\u002Follama.com\u002Fopenbmb) is released. Try our latest models with [one click](https:\u002F\u002Follama.com\u002Fopenbmb\u002Fminicpm-o2.6)！\n* [2025.01.24] 📢📢📢 MiniCPM-o 2.6 technical report is released! See [here](https:\u002F\u002Fopenbmb.notion.site\u002FMiniCPM-o-2-6-A-GPT-4o-Level-MLLM-for-Vision-Speech-and-Multimodal-Live-Streaming-on-Your-Phone-185ede1b7a558042b5d5e45e6b237da9).\n* [2025.01.23] 💡💡💡 MiniCPM-o 2.6 is now supported by [Align-Anything](https:\u002F\u002Fgithub.com\u002FPKU-Alignment\u002Falign-anything), a framework by PKU-Alignment Team for aligning any-to-any modality large models with human intentions. It supports DPO and SFT fine-tuning on both vision and audio. Try it now!\n* [2025.01.19] 📢 **ATTENTION!** We are currently working on merging MiniCPM-o 2.6 into the official repositories of llama.cpp, Ollama, and vllm. Until the merge is complete, please USE OUR LOCAL FORKS of [llama.cpp](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002Fllama.cpp\u002Fblob\u002Fminicpm-omni\u002Fexamples\u002Fllava\u002FREADME-minicpmo2.6.md), [Ollama](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002Follama\u002Fblob\u002Fminicpm-v2.6\u002Fexamples\u002Fminicpm-v2.6\u002FREADME.md), and [vllm](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-o?tab=readme-ov-file#efficient-inference-with-llamacpp-ollama-vllm). **Using the official repositories before the merge may lead to unexpected issues**.\n* [2025.01.17] We have updated the usage of MiniCPM-o 2.6 int4 quantization version and resolved the model initialization error. Click [here](https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002FMiniCPM-o-2_6-int4) and try it now!\n* [2025.01.13] 🔥🔥🔥 We open-source MiniCPM-o 2.6, which matches GPT-4o-202405 on vision, speech and multimodal live streaming. It advances popular capabilities of MiniCPM-V 2.6, and supports various new fun features. Try it now!\n* [2024.08.15] We now also support multi-image SFT. For more details, please refer to the [document](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-V\u002Ftree\u002Fmain\u002Ffinetune).\n* [2024.08.14] MiniCPM-V 2.6 now also supports [fine-tuning](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fms-swift\u002Fissues\u002F1613) with the SWIFT framework!\n* [2024.08.17] 🚀🚀🚀 MiniCPM-V 2.6 is now fully supported by [official](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp) llama.cpp! GGUF models of various sizes are available [here](https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002FMiniCPM-V-2_6-gguf).\n* [2024.08.10] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 is now fully supported by [official](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp) llama.cpp! GGUF models of various sizes are available [here](https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002FMiniCPM-Llama3-V-2_5-gguf).\n* [2024.08.06] 🔥🔥🔥 We open-source MiniCPM-V 2.6, which outperforms GPT-4V on single image, multi-image and video understanding. It advances popular features of MiniCPM-Llama3-V 2.5, and can support real-time video understanding on iPad. Try it now!\n* [2024.08.03] MiniCPM-Llama3-V 2.5 technical report is released! See [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.01800).\n* [2024.07.19] MiniCPM-Llama3-V 2.5 supports vLLM now! See [here](#inference-with-vllm).\n\n* [2024.06.03] Now, you can run MiniCPM-Llama3-V 2.5 on multiple low VRAM GPUs(12 GB or 16 GB) by distributing the model's layers across multiple GPUs. For more details, check this [link](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-V\u002Fblob\u002Fmain\u002Fdocs\u002Finference_on_multiple_gpus.md).\n* [2024.05.28] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 now fully supports its feature in llama.cpp and Ollama! Please pull the latest code **of our provided forks** ([llama.cpp](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002Fllama.cpp\u002Fblob\u002Fminicpm-v2.5\u002Fexamples\u002Fminicpmv\u002FREADME.md), [Ollama](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002Follama\u002Ftree\u002Fminicpm-v2.5\u002Fexamples\u002Fminicpm-v2.5)). GGUF models in various sizes are available [here](https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002FMiniCPM-Llama3-V-2_5-gguf\u002Ftree\u002Fmain). MiniCPM-Llama3-V 2.5 series is **not supported by the official repositories yet**, and we are working hard to merge PRs. Please stay tuned!\n\n* [2024.05.28] 💫 We now support LoRA fine-tuning for MiniCPM-Llama3-V 2.5, using only 2 V100 GPUs! See more statistics [here](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-V\u002Ftree\u002Fmain\u002Ffinetune#model-fine-tuning-memory-usage-statistics).\n\n* [2024.05.25] MiniCPM-Llama3-V 2.5 now supports streaming outputs and customized system prompts. Try it [here](https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002FMiniCPM-Llama3-V-2_5#usage)!\n* [2024.05.24] We release the MiniCPM-Llama3-V 2.5 [gguf](https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002FMiniCPM-Llama3-V-2_5-gguf), which supports [llama.cpp](#inference-with-llamacpp) inference and provides a 6~8 token\u002Fs smooth decoding on mobile phones. Try it now!\n\n* [2024.05.23] 🔍 We've released a comprehensive comparison between Phi-3-vision-128k-instruct and MiniCPM-Llama3-V 2.5, including benchmark evaluations, multilingual capabilities, and inference efficiency 🌟📊🌍🚀. Click [here](.\u002Fdocs\u002Fcompare_with_phi-3_vision.md) to view more details.\n\n* [2024.05.20] We open-soure MiniCPM-Llama3-V 2.5, it has improved OCR capability and supports 30+ languages, representing the first end-side MLLM achieving GPT-4V level performance! We provide [efficient inference](#deployment-on-mobile-phone) and [simple fine-tuning](.\u002Ffinetune\u002Freadme.md). Try it now!\n* [2024.04.23] MiniCPM-V-2.0 supports vLLM now! Click [here](#inference-with-vllm) to view more details.\n* [2024.04.18] We create a HuggingFace Space to host the demo of MiniCPM-V 2.0 at [here](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fopenbmb\u002FMiniCPM-V-2)!\n* [2024.04.17] MiniCPM-V-2.0 supports deploying [WebUI Demo](#webui-demo) now!\n* [2024.04.15] MiniCPM-V-2.0 now also supports [fine-tuning](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fswift\u002Fblob\u002Fmain\u002Fdocs\u002Fsource\u002FMulti-Modal\u002Fminicpm-v-2最佳实践.md) with the SWIFT framework, with streaming inference enabled!\n* [2024.04.12] We open-source MiniCPM-V 2.0, which achieves comparable performance with Gemini Pro in understanding scene text and outperforms strong Qwen-VL-Chat 9.6B and Yi-VL 34B on \u003Ca href=\"https:\u002F\u002Frank.opencompass.org.cn\u002Fleaderboard-multimodal\">OpenCompass\u003C\u002Fa>, a comprehensive evaluation over 11 popular benchmarks. Click \u003Ca href=\"https:\u002F\u002Fopenbmb.vercel.app\u002Fminicpm-v-2\">here\u003C\u002Fa> to view the MiniCPM-V 2.0 technical blog.\n* [2024.03.14] MiniCPM-V now supports [fine-tuning](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fswift\u002Fblob\u002Fmain\u002Fdocs\u002Fsource\u002FMulti-Modal\u002Fminicpm-v最佳实践.md) with the SWIFT framework. Thanks to [Jintao](https:\u002F\u002Fgithub.com\u002FJintao-Huang) for the contribution！\n* [2024.03.01] MiniCPM-V can now be deployed on Mac!\n* [2024.02.01] We open-source MiniCPM-V and OmniLMM-12B, which support efficient end-side deployment and powerful multimodal capabilities correspondingly.\n\u003C\u002Fdetails> \n\n\n## Contents \u003C!-- omit in toc -->\n\n\n- [MiniCPM-V 4.6](#minicpm-v-46)\n  - [Usages](#usages)\n- [MiniCPM-o 4.5](#minicpm-o-45)\n  - [Usages](#usages-1)\n- [MiniCPM-V \\& o Cookbook](#minicpm-v--o-cookbook)\n- [Supported Inference and Training Frameworks](#supported-inference-and-training-frameworks)\n- [Model Zoo](#model-zoo)\n- [Awesome work using MiniCPM-V \\& o](#awesome-work-using-minicpm-v--o)\n- [Technical Reports and Key Techniques Papers](#technical-reports-and-key-techniques-papers)\n\n## MiniCPM-V 4.6\n\n**MiniCPM-V 4.6** is our most edge-deployment-friendly model to date. The model is built based on SigLIP2-400M and the Qwen3.5-0.8B LLM. It inherits the strong single-image, multi-image, and video understanding capabilities of MiniCPM-V family, while significantly improving computation efficiency. It also introduces mixed 4x\u002F16x visual token compression. Notable features of MiniCPM-V 4.6 include:\n\n- 🔥 **Leading Foundation Capability.**\n  MiniCPM-V 4.6 scores 13 on the Artificial Analysis Intelligence Index benchmark, outperforming Qwen3.5-0.8B's score of 10 with 19x fewer token cost, and Qwen3.5-0.8B-Thinking's score of 11 with 43x fewer token cost. It also surpasses the larger Ministral 3 3B (score of 11).\n\n- 💪 **Strong Multimodal Capability.**\n  MiniCPM-V 4.6 outperforms Qwen3.5-0.8B on most vision-language understanding tasks, and reaches Qwen3.5 2B-level capability on many benchmarks including OpenCompass, RefCOCO, HallusionBench, MUIRBench, and OCRBench.\n- 🚀 **Ultra-Efficient Architecture.**\n  Based on the latest technique in [LLaVA-UHD v4](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2605.08985), MiniCPM-V 4.6 reduces the visual encoding computation FLOPs by more than 50%. It enables MiniCPM-V 4.6 to achieve better efficiency to even smaller models, achieving ~1.5x token throughput compared to Qwen3.5-0.8B. \n  It also supports mixed 4x\u002F16x visual token compression rate, allowing flexible switching between accuracy and speed.\n- 📱 **Broad Mobile Platform Coverage.**\n  MiniCPM-V 4.6 can be deployed across all three mainstream mobile platforms — iOS, Android, and HarmonyOS. With every edge adaptation code open-sourced, developers can reproduce the on-device experience in [just a few steps](#deploy-minicpm-v-46-on-ios-android-and-harmonyos-platforms-).\n- 🛠️ **Developer Friendly.**\n  MiniCPM-V 4.6 is adapted to [inference frameworks](#supported-inference-and-training-frameworks) such as SGLang, vLLM, llama.cpp, Ollama, and supports [fine-tuning ecosystems](#supported-inference-and-training-frameworks) such as SWIFT and LLaMA-Factory. Developers can quickly customize models for new domains and tasks on consumer-grade GPUs. We provide multiple quantized variants across GGUF, BNB, AWQ, and GPTQ formats.\n\n\n### Evaluation \u003C!-- omit in toc -->\n\n**Overall Performance (Instruct)**\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\".\u002Fassets\u002Fminicpmv4.6\u002Finstruct.png\" width=\"90%\">\u003C\u002Fimg>\n\u003C\u002Fp>\n\n\n\u003Cdetails>\n\u003Csummary>Click to view MiniCPM-V 4.6-Thinking performance.\u003C\u002Fsummary>\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\".\u002Fassets\u002Fminicpmv4.6\u002Fthinking.png\" width=\"90%\">\u003C\u002Fimg>\n\u003C\u002Fp>\n\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\n**MiniCPM-V 4.6 Inference Efficiency**\n\u003Ctable align=\"center\">\n  \u003Ctr>\n    \u003Ctd align=\"center\" width=\"50%\">\u003Cb>High-Concurrency Throughput\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" width=\"50%\">\u003Cb>Single Request TTFT (ms)\u003C\u002Fb>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\" valign=\"middle\">\u003Cimg src=\".\u002Fassets\u002Fminicpmv4.6\u002Fthroughput.png\" width=\"110%\">\u003C\u002Fimg>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" valign=\"middle\">\u003Cimg src=\".\u002Fassets\u002Fminicpmv4.6\u002Fttft.png\" width=\"100%\">\u003C\u002Fimg>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\n### Examples \u003C!-- omit in toc -->\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Ch5UG1FoysM\">\u003Cimg src=\".\u002Fassets\u002Fminicpmv4.6\u002Fvideo_play.png\" width=\"70%\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\nMiniCPM-V 4.6 can be deployed across three mainstream end-side platforms — **iOS, Android and HarmonyOS**. The clips below are raw screen recordings on phone devices without edition.\n\n\u003Ctable align=\"center\">\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>iPhone\u003C\u002Fb>\u003Cbr>\u003Csub>iPhone 17 Pro Max\u003C\u002Fsub>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>Android\u003C\u002Fb>\u003Cbr>\u003Csub>Redmi K70\u003C\u002Fsub>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>HarmonyOS\u003C\u002Fb>\u003Cbr>\u003Csub>HUAWEI nova 14\u003C\u002Fsub>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cimg src=\".\u002Fassets\u002Fminicpmv4.6\u002Fv46_iphone_en_handwriting.gif\" width=\"100%\"\u002F>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cimg src=\".\u002Fassets\u002Fminicpmv4.6\u002Fv46_android_en_refraction.gif\" width=\"100%\"\u002F>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cimg src=\".\u002Fassets\u002Fminicpmv4.6\u002Fv46_harmonyos_en_ticket.gif\" width=\"100%\"\u002F>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\n### Usages\n\n#### Inference with Transformers \u003C!-- omit in toc -->\n\u003Cdetails>\n\u003Csummary>Click to show inference examples with Transformers. \u003C\u002Fsummary>\n\n##### Installation \u003C!-- omit in toc -->\n\n```bash\npip install \"transformers[torch]>=5.7.0\" torchvision torchcodec\n```\n\n> **Note on CUDA compatibility:** `torchcodec` (used for video decoding) may have compatibility issues with certain CUDA versions. For example, `torch>=2.11` bundles CUDA 13.1 by default, while environments with CUDA 12.x may encounter errors such as `RuntimeError: Could not load libtorchcodec`. Two workarounds:\n>\n> 1. **Replace `torchcodec` with `PyAV`** — supports both image and video inference without CUDA version constraints:\n>    ```bash\n>    pip install \"transformers[torch]>=5.7.0\" torchvision av\n>    ```\n> 2. **Pin the CUDA version** when installing torch to match your environment (e.g. CUDA 12.8):\n>    ```bash\n>    pip install \"transformers>=5.7.0\" torchvision torchcodec --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu128\n>    ```\n\n##### Load Model \u003C!-- omit in toc -->\n\n```python\nfrom transformers import AutoModelForImageTextToText, AutoProcessor\n\nmodel_id = \"openbmb\u002FMiniCPM-V-4.6\"\n\nprocessor = AutoProcessor.from_pretrained(model_id)\nmodel = AutoModelForImageTextToText.from_pretrained(\n    model_id, torch_dtype=\"auto\", device_map=\"auto\"\n)\n\n# Flash Attention 2 is recommended for better acceleration and memory saving,\n# especially in multi-image and video scenarios.\n# model = AutoModelForImageTextToText.from_pretrained(\n#     model_id,\n#     torch_dtype=torch.bfloat16,\n#     attn_implementation=\"flash_attention_2\",\n#     device_map=\"auto\",\n# )\n```\n\n##### Image Inference \u003C!-- omit in toc -->\n\n```python\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"url\": \"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopenbmb\u002FDemoCase\u002Fresolve\u002Fmain\u002Frefract.png\"},\n            {\"type\": \"text\", \"text\": \"What causes this phenomenon?\"},\n        ],\n    }\n]\n\ndownsample_mode = \"16x\"  # Using `downsample_mode=\"4x\"` for Finer Detail\n\ninputs = processor.apply_chat_template(\n    messages, tokenize=True, add_generation_prompt=True,\n    return_dict=True, return_tensors=\"pt\",\n    downsample_mode=downsample_mode,\n    max_slice_nums=36,\n).to(model.device)\n\ngenerated_ids = model.generate(**inputs, downsample_mode=downsample_mode, max_new_tokens=512)\ngenerated_ids_trimmed = [\n    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)\n]\noutput_text = processor.batch_decode(\n    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False\n)\nprint(output_text[0])\n```\n\n##### Video Inference \u003C!-- omit in toc -->\n\n```python\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"video\", \"url\": \"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopenbmb\u002FDemoCase\u002Fresolve\u002Fmain\u002Ffootball.mp4\"},\n            {\"type\": \"text\", \"text\": \"Describe this video in detail. Follow the timeline and focus on on-screen text, interface changes, main actions, and scene changes.\"},\n        ],\n    }\n]\n\ndownsample_mode = \"16x\"  # Using `downsample_mode=\"4x\"` for Finer Detail\n\ninputs = processor.apply_chat_template(\n    messages, tokenize=True, add_generation_prompt=True,\n    return_dict=True, return_tensors=\"pt\",\n    downsample_mode=downsample_mode,\n    max_num_frames=128,\n    stack_frames=1,\n    max_slice_nums=1,\n    use_image_id=False,\n).to(model.device)\n\ngenerated_ids = model.generate(**inputs, downsample_mode=downsample_mode, max_new_tokens=2048)\ngenerated_ids_trimmed = [\n    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)\n]\noutput_text = processor.batch_decode(\n    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False\n)\nprint(output_text[0])\n```\n\n##### Advanced Parameters \u003C!-- omit in toc -->\n\nYou can customize image\u002Fvideo processing by passing additional parameters to `apply_chat_template`:\n\n| Parameter | Default | Applies to | Description |\n|-----------|---------|------------|-------------|\n| `downsample_mode` | `\"16x\"` | Image & Video | Visual token downsampling. `\"16x\"` merges tokens for efficiency; `\"4x\"` keeps 4× more tokens for finer detail. Must also be passed to `generate()`. |\n| `max_slice_nums` | `9` | Image & Video | Maximum number of slices when splitting a high-resolution image. Higher values preserve more detail for large images. Recommended: `36` for image, `1` for video. |\n| `max_num_frames` | `128` | Video only | Maximum number of main frames sampled from the video. |\n| `stack_frames` | `1` | Video only | Total sample points per second. `1` = main frame only (no stacking). `N` (N>1) = 1 main frame + N−1 sub-frames per second; the sub-frames are composited into a grid image and interleaved with main frames. Recommended: `3` or `5`. |\n| `use_image_id` | `True` | Image & Video | Whether to prepend `\u003Cimage_id>N\u003C\u002Fimage_id>` tags before each image\u002Fframe placeholder. Recommended: `True` for image, `False` for video. |\n\n> **Note:** `downsample_mode` must be passed to **both** `apply_chat_template` (for correct placeholder count) and `generate` (for the vision encoder). All other parameters only need to be passed to `apply_chat_template`.\n\n##### Serving with `transformers serve` \u003C!-- omit in toc -->\n\nHugging Face Transformers includes a lightweight OpenAI-compatible server for quick testing and moderate-load deployment.\n\n```bash\npip install \"transformers[serving]>=5.7.0\"\n```\n\nStart the server:\n\n```bash\ntransformers serve openbmb\u002FMiniCPM-V-4.6 --port 8000 --host 0.0.0.0 --continuous-batching\n```\n\nSend a request:\n\n```bash\ncurl -s http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H 'Content-Type: application\u002Fjson' \\\n  -d '{\n    \"model\": \"openbmb\u002FMiniCPM-V-4.6\",\n    \"messages\": [{\n      \"role\": \"user\",\n      \"content\": [\n        {\"type\": \"image_url\", \"image_url\": {\"url\": \"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopenbmb\u002FDemoCase\u002Fresolve\u002Fmain\u002Frefract.png\"}},\n        {\"type\": \"text\", \"text\": \"What causes this phenomenon?\"}\n      ]\n    }]\n  }'\n```\n\n\u003C\u002Fdetails>\n\n\n\n#### Deploy MiniCPM-V 4.6 on iOS, Android, and HarmonyOS Platforms \u003C!-- omit in toc -->\n\nWe **open-source edge deployment guidance** of all these platforms, so that developers can deploy on their own devices in a few steps. Try the apps via the [download page](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-V-Apps\u002Fblob\u002Fmain\u002FDOWNLOAD.md), or follow the [edge deployment guide](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FMiniCPM-V-Apps) for the full source. \n\n#### Use MiniCPM-V 4.6 in Other Inference and Training Frameworks \u003C!-- omit in toc -->\n\nMiniCPM-V 4.6 supports [inference frameworks](#supported-inference-and-training-frameworks) including SGLang, vLLM, llama.cpp, Ollama, and [training frameworks](#supported-inference-and-training-frameworks) including LLaMA-Factory, SWIFT.\n\n\n### Acknowledgements \u003C!-- omit in toc -->\n\n\u003Cdetails>\n\u003Csummary>Click to view acknowledgements.\u003C\u002Fsummary>\n\nWe would like to thank the following projects:\n* [Qwen3.5](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen35) for providing language backbone\n* [SigLIP2](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbig_vision\u002Fblob\u002Fmain\u002Fbig_vision\u002Fconfigs\u002Fproj\u002Fimage_text\u002FREADME_siglip2.md) for providing vision understanding module\n* [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n\n\u003C\u002Fdetails>\n\n## MiniCPM-o 4.5\n\n**MiniCPM-o 4.5** is the latest and most capable model in the MiniCPM-o series. The model is built in an end-to-end fashion based on SigLip2, Whisper-medium, CosyVoice2, and Qwen3-8B with a total of 9B parameters. It exhibits a significant performance improvement, and introduces new features for full-duplex multimodal live streaming. Notable features of MiniCPM-o 4.5 include:\n\n- 🔥 **Leading Visual Capability.**\n  MiniCPM-o 4.5 achieves an average score of 77.6 on OpenCompass, a comprehensive evaluation of 8 popular benchmarks. **With only 9B parameters, it surpasses widely used proprietary models like GPT-4o, Gemini 2.0 Pro, and approaches Gemini 2.5 Flash** for vision-language capabilities. It supports instruct and thinking modes in a single model, better covering efficiency and performance trade-offs in different user scenarios.\n\n- 🎙 **Strong Speech Capability.** \n  MiniCPM-o 4.5 supports **bilingual real-time speech conversation with configurable voices** in English and Chinese. It features **more natural, expressive and stable speech conversation**. The model also allows for fun features such as **voice cloning and role play via a simple reference audio clip**, where the cloning performance surpasses strong TTS tools such as CosyVoice2.\n\n- 🎬 **New Full-Duplex and Proactive Multimodal Live Streaming Capability.** \n  As a new feature, MiniCPM-o 4.5 can process real-time, continuous video and audio input streams simultaneously while generating concurrent text and speech output streams in an end-to-end fashion, without mutual blocking. This **allows MiniCPM-o 4.5 to see, listen, and speak simultaneously**, creating a fluid, real-time omnimodal conversation experience. Beyond reactive responses, the model can also perform **proactive interaction**, such as initiating reminders or comments based on its continuous understanding of the live scene. \n\n- 💪 **Strong OCR Capability, Efficiency and Others.**\nAdvancing popular visual capabilities from MiniCPM-V series, MiniCPM-o 4.5 can process **high-resolution images** (up to 1.8 million pixels) and **high-FPS videos** (up to 10fps) in any aspect ratio efficiently. It achieves **state-of-the-art performance for end-to-end English document parsing** on OmniDocBench, outperforming proprietary models such as Gemini-3 Flash and GPT-5, and specialized tools such as DeepSeek-OCR 2. It also features **trustworthy behaviors**, matching Gemini 2.5 Flash on MMHal-Bench, and supports **multilingual capabilities** on more than 30 languages.\n\n-  💫  **Easy Usage.**\n  MiniCPM-o 4.5 can be easily used in various ways:  **Basic usage, recommended for 100% precision:** PyTorch inference with Nvidia GPU. **Other end-side adaptation** includes (1) llama.cpp and Ollama support for efficient CPU inference on local devices, (2) int4 and GGUF format quantized models in 16 sizes, (3) vLLM and SGLang support for high-throughput and memory-efficient inference, (4) FlagOS support for the unified multi-chip backend plugin. **We also open-sourced web demos** on which **enables the full-duplex multimodal live streaming experience on local devices** such as GPUs, PCs (e.g., on a MacBook).\n\n**Model Architecture.**\n- **End-to-end Omni-modal Architecture.** The modality encoders\u002Fdecoders and LLM are densely connected via hidden states in an end-to-end fashion. This enables better information flow and control, and also facilitates full exploitation of rich multimodal knowledge during training.\n- **Full-Duplex Omni-modal Live Streaming Mechanism.** (1) We turn the offline modality encoder\u002Fdecoders into online and full-duplex ones for streaming inputs\u002Foutputs. The speech token decoder models text and speech tokens in an interleaved fashion to support full-duplex speech generation (i.e., sync timely with new input). This also facilitates more stable long speech generation (e.g., > 1min).\n(2) **We sync all the input and output streams on timeline in milliseconds**, which are jointly modeled by a time-division multiplexing (TDM) mechanism for omni-modality streaming processing in the LLM backbone. It divides parallel omni-modality streams into sequential info groups within small periodic time slices.\n- **Proactive Interaction Mechanism.** The LLM continuously monitors the input video and audio streams, and decides at a frequency of 1Hz to speak or not. This high decision-making frequency together with full-duplex nature are curcial to enable the proactive interaction capability.\n- **Configurable Speech Modeling Design.** We inherit the multimodal system prompt design of MiniCPM-o 2.6, which includes a traditional text system prompt, and a new audio system prompt to determine the assistant voice. This enables cloning new voices and role play in inference time for speech conversation.\n\n\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\".\u002Fassets\u002Fminicpm-o-45-framework.png\", width=100%>\n\u003C\u002Fdiv>\n\n\n### Evaluation  \u003C!-- omit in toc -->\n\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\".\u002Fassets\u002Fradar_minicpmo4.5.png\", width=80%>\n\u003C\u002Fdiv>\n\n\n&emsp;\n\u003Cbr>\n\n\u003Cdetails>\n\u003Csummary>Click to view detailed MiniCPM-o 4.5 evaluation breakdowns.\u003C\u002Fsummary>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\".\u002Fassets\u002Fminicpm_o_45_main_exp_table.png\", width=90%>\n\u003C\u002Fdiv>\n\u003Cstrong>Note\u003C\u002Fstrong>: Scores marked with ∗ are from our evaluation; others are cited from referenced reports. n\u002Fa indicates that the model does not support the corresponding modality. All results are reported in instruct mode\u002Fvariant.\n\n\u003Cdetails>\n\u003Csummary>Click to view visual understanding results.\u003C\u002Fsummary>\n\n**Image Understanding (Instruct)**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>OpenCompass\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMBench EN v1.1\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMBench CN v1.1\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MathVista\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMVet\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMMU\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMStar\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>HallusionBench\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>AI2D\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>OCRBench\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>TextVQA_VAL\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>DocVQA_VAL\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMT-Bench_VAL\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MM-IFEval\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Mantis-Eval\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MuirBench\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMSI-Bench\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMHal-Score\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMHal-Hallrate↓\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Gemini2.5-Flash-Nonthinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>78.5\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>86.6\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>86.0\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">75.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>81.4\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>76.3\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>75.8\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">59.1\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>87.7\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">864\u003C\u002Ftd>\n  \u003Ctd align=\"center\">74.3\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">93.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>70.0\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>75.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">72.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>74.5\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">12.1\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>4.6\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>23.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Gemini2.0-Pro\u003C\u002Ftd>\n  \u003Ctd align=\"center\">73.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">83.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">83.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">71.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">72.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">68.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">49.8\u003C\u002Ftd>\n  \u003Ctd align=\"center\">84.8\u003C\u002Ftd>\n  \u003Ctd align=\"center\">863\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">GPT-4o\u003C\u002Ftd>\n  \u003Ctd align=\"center\">75.4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">86.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>86.0\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">71.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">76.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">72.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">57.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">86.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">822\u003C\u002Ftd>\n  \u003Ctd align=\"center\">77.4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">93.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">66.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">64.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.1\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.5\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">8.1\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">4.2\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">25.0\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">InternVL-3.5-8B\u003C\u002Ftd>\n  \u003Ctd align=\"center\">75.8\u003C\u002Ftd>\n  \u003Ctd align=\"center\">79.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">80.0\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>78.4\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>83.1\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>73.4\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">69.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">54.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">84.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">840\u003C\u002Ftd>\n  \u003Ctd align=\"center\">78.2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">92.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">66.7\u003C\u002Ftd>\n  \u003Ctd align=\"center\">56.3\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">55.8\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">3.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">34.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-VL-8B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">76.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">84.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">84.7\u003C\u002Ftd>\n  \u003Ctd align=\"center\">77.2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">73.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">69.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>61.1\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">85.7\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>896\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">82.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>96.1\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">60.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">59.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">74.2\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">64.4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">11.3\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>4.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">29.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">75.7\u003C\u002Ftd>\n  \u003Ctd align=\"center\">84.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">84.1\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">75.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">74.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">69.1\u003C\u002Ftd>\n  \u003Ctd align=\"center\">68.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">59.7\u003C\u002Ftd>\n  \u003Ctd align=\"center\">85.2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>880\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>84.1\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>95.4\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>70.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">65.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>78.3\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">61.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>14.2\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>4.6\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">31.6\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>77.6\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>87.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>87.2\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>80.1\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">74.4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">67.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>73.1\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>63.2\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>87.6\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">876\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>83.8\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">94.7\u003C\u002Ftd>\n  \u003Ctd align=\"center\">69.7\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>66.3\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>79.7\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>72.0\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>16.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>4.7\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>24.3\u003C\u002Fins>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\n**Image Understanding (Thinking)**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>OpenCompass\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMBench EN v1.1\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMBench CN v1.1\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MathVista\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMVet\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMMU\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMStar\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>HallusionBench\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>AI2D\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>OCRBench\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>TextVQA_VAL\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>DocVQA_VAL\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMT-Bench_VAL\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MM-IFEval\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Gemini2.5-Flash-Thinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>79.9\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">87.1\u003C\u002Ftd>\n  \u003Ctd align=\"center\">87.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">79.4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>81.2\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>77.7\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>76.5\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">63.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>88.7\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">853\u003C\u002Ftd>\n  \u003Ctd align=\"center\">73.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">92.8\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>75.7\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">GPT-5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>79.7\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">85.5\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">85.6\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>81.9\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>77.6\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>81.8\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>75.7\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>65.2\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>89.5\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">807\u003C\u002Ftd>\n  \u003Ctd align=\"center\">77.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">91.3\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>72.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>83.1\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-VL-8B-Thinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">77.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">85.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">85.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>81.4\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">69.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">74.1\u003C\u002Ftd>\n  \u003Ctd align=\"center\">75.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>65.4\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">84.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">819\u003C\u002Ftd>\n  \u003Ctd align=\"center\">77.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>95.3\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">68.1\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">73.5\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-Omni-30B-A3B-Thinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">78.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>88.2\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>87.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">80.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">74.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">75.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">74.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">62.8\u003C\u002Ftd>\n  \u003Ctd align=\"center\">86.1\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>859\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>80.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>94.2\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>70.9\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">69.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Thinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">78.2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>89.0\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>87.6\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">81.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">73.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">73.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">62.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">88.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>879\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>79.8\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">92.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">69.7\u003C\u002Ftd>\n  \u003Ctd align=\"center\">68.2\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\n**Video Understanding**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Video-MME\u003Cbr>(w\u002Fo subs)\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>LVBench\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MLVU\u003Cbr>(M-Avg)\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>LongVideoBench\u003Cbr>(val)\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MotionBench\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Gemini2.5-Flash-Nonthinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>75.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>62.2\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>77.8\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">InternVL-3.5-8B\u003C\u002Ftd>\n  \u003Ctd align=\"center\">66.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">62.1\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>62.3\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>70.5\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">50.2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">75.2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>66.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>61.7\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>50.9\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>76.5\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>66.0\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">61.4\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Click to view document parsing results.\u003C\u002Fsummary>\n\n**OmniDocBench**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\" rowspan=\"2\">\u003Cb>Method Type\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" rowspan=\"2\">\u003Cb>Methods\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"2\">\u003Cb>OverallEdit↓\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"2\">\u003Cb>TextEdit↓\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"2\">\u003Cb>FormulaEdit↓\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"2\">\u003Cb>TableTEDS↑\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"2\">\u003Cb>TableEdit↓\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"2\">\u003Cb>Read OrderEdit↓\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>EN\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>ZH\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>EN\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>ZH\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>EN\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>ZH\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>EN\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>ZH\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>EN\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>ZH\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>EN\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>ZH\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\" rowspan=\"2\">Pipeline\u003C\u002Ftd>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">MinerU 2.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.117\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.172\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.051\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.08\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.256\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.455\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">85.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">89.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.115\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.081\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.047\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.072\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">PaddleOCR-VL\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.105\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.126\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.041\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.062\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.241\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.316\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">88\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>92.1\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.093\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.062\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.045\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.063\u003C\u002Fins>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\" rowspan=\"11\">End-to-end Model\u003C\u002Ftd>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">Qwen2.5-VL-72B\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.214\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.261\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.092\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.18\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.315\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.434\u003C\u002Ftd>\n  \u003Ctd align=\"center\">82.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">83.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.341\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.262\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.106\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.168\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">GPT 5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.218\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.33\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.139\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.344\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.396\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.555\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">77.55\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">73.09\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.188\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.196\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.151\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.227\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">Gemini2.5-Flash-Nonthinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.214\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.29\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.159\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.273\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.368\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.524\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">80.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">85.5\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.197\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.167\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.132\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.195\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">Gemini-2.5-Pro-Nonthinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.148\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.212\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.055\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.168\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.356\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.439\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">85.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">86.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.13\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.119\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.049\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.121\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">Gemini-3 Flash-Nonthinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.155\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.201\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.138\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.255\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.297\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.351\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">86.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">89.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.116\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.1\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.072\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.099\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">doubao-1-5-thinking-vision-pro-250428\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.14\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.162\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.043\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.085\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.295\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.384\u003C\u002Ftd>\n  \u003Ctd align=\"center\">83.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">89.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.165\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.085\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.058\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.094\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">dots.ocr\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.125\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.16\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.032\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.066\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.329\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.416\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>88.6\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">89\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.099\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.092\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.04\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.067\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">HunyuanOCR\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.12\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.125\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.046\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.071\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.288\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.33\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>89.6\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>94.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.089\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.045\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.055\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.056\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">DeepSeek-OCR 2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.119\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.146\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.041\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.08\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.256\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.345\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">82.6\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">89.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.123\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.078\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.055\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.081\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.216\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.363\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.128\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.337\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.402\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.529\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">77.3\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">71.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.181\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.255\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.152\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.332\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"center\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.109\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.162\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.046\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.078\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.257\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.41\u003C\u002Ftd>\n  \u003Ctd align=\"center\">86.8\u003C\u002Ftd>\n  \u003Ctd align=\"center\">88.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.097\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.084\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.037\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">0.074\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Click to view text capability results.\u003C\u002Fsummary>\n\n**Text Capability**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>IFEval-PLS\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>BBH\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>CMMLU\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMLU\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>HumanEval\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MBPP\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Math500\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>GSM8K\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Avg\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-8B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">83.0\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">69.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">78.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>81.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>86.6\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">75.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>84.0\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">93.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">81.6\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>84.7\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>81.1\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>79.5\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">77.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>86.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>76.7\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">77.0\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>94.5\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>82.1\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Click to view omni half-duplex results.\u003C\u002Fsummary>\n\n**Omni Half-Duplex**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Daily-Omni\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>WorldSense\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Video-Holmes\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>JointAVBench\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>AVUT-Human\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>FutureOmni\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Video-MME-Short\u003Cbr>(w\u002F audio)\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">Avg\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Gemini2.5-Flash-Nonthinking\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>79.3\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">52.6\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>51.3\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>55.6\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">65.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">55.6\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>85.5\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">63.6\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">70.7\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>54.0\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">50.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">53.1\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>74.2\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>62.1\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">81.3\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>63.7\u003C\u002Fins>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>80.2\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>55.7\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>64.3\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>60.0\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>78.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>56.1\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>84.7\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>68.5\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Click to view vision duplex results.\u003C\u002Fsummary>\n\n\n**Vision Duplex**\n\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>LiveSports-3K-CC\u003Cbr>(Win Rate vs GPT4o)\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">LiveCC-7B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">41.5\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">StreamingVLM\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>45.6\u003C\u002Fins>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>54.4\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Click to view audio understanding results.\u003C\u002Fsummary>\n\n**Audio Understanding**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\" rowspan=\"2\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"4\">\u003Cb>ASR-ZH\u003Cbr>CER↓\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"4\">\u003Cb>ASR-EN\u003Cbr>WER↓\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"2\">\u003Cb>AST\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"2\">\u003Cb>MultiTask\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\" colspan=\"4\">\u003Cb>SpeechQA\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>AISHELL-1\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>AISHELL-2\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>WenetSpeech test-net\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>WenetSpeech test-meeting\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>LibriSpeech test-clean\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>LibriSpeech \u003Cbr>test-other\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>GigaSpeech test\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>VoxPopuli-V1-En\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>CoVoST 2 en2zh\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>CoVoST 2 zh2en\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>MMAU\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Meld\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>VoiceBench \u003Cbr>AlpacaEval\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Speech TriviaQA\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Speech \u003Cbr>Web Questions\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Speech CMMLU\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Kimi-Audio\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">2.6\u003C\u002Ftd>\n  \u003Ctd align=\"center\">6.3\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>5.4\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>1.3\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>2.4\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">9.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">8.0\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">36.6\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">18.3\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">68.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>59.1\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">4.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">41.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">46.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>67.0\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>2.3\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>4.7\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">5.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>1.2\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>2.5\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>8.7\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>6.4\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>46.6\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>29.4\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>77.5\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">56.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>4.7\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>62.9\u003C\u002Fins>\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>74.9\u003Csup>*\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">47.8\u003Csup>*\u003C\u002Fsup>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>0.9\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>2.5\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>5.9\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>5.7\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">1.4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">2.8\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>8.5\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>6.2\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>49.9\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>26.4\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>76.9\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>60.2\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>4.8\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>75.5\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>70.2\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>59.2\u003C\u002Fins>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Click to view speech generation results.\u003C\u002Fsummary>\n\n**Speech Generation**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>seedtts test-zh \u003Cbr>CER↓\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>seedtts test-zh\u003Cbr>SIM-o↑\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>seedtts test-en\u003Cbr>WER↓\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>seedtts test-en\u003Cbr>SIM-o↑\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Cosyvoice2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">1.45%\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>74.8\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>2.57%\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>65.2\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>1.41%\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n  \u003Ctd align=\"center\">3.39%\u003C\u002Ftd>\n  \u003Ctd align=\"center\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>\u003Cb>0.86%\u003C\u002Fb>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">74.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>\u003Cb>2.38%\u003C\u002Fb>\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">64.9\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\n**Long Speech Generation**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>LongTTS-en\u003Cbr>WER↓\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>LongTTS-zh\u003Cbr>CER↓\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">CosyVoice2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>14.80%\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>5.27%\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">17.33%\u003C\u002Ftd>\n  \u003Ctd align=\"center\">18.99%\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>3.37%\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>6.58%\u003C\u002Fins>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\n**Emotion Control**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">\u003Cb>Model\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>Expresso \u003Cbr>Neutral Reference Audio↑\u003C\u002Fb>\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">\u003Cb>ESD \u003Cbr>Neutral Reference Audio↑\u003C\u002Fb>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">Cosyvoice2\u003C\u002Ftd>\n  \u003Ctd align=\"center\">17.9\u003C\u002Ftd>\n  \u003Ctd align=\"center\">53.4\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\">MiniCPM-o 4.5-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>29.8\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>82.1\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>Click to view inference efficiency results.\u003C\u002Fsummary>\n\n**Inference Efficiency**\n  \u003Cdiv align=\"center\">\n  \u003Ctable style=\"margin: 0px auto;\">\n\u003Ctr>\n  \u003Cth nowrap=\"nowrap\" align=\"left\">Model\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">Numerical Format\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">Decoding Speed (tokens\u002Fs)\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">Time to First Token (s)↓\u003C\u002Fth>\n  \u003Cth nowrap=\"nowrap\">GPU Memory Usage (GB)↓\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\" rowspan=\"2\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\n  \u003Ctd align=\"center\">bf16\u003C\u002Ftd>\n  \u003Ctd align=\"center\">OOM\u003C\u002Ftd>\n  \u003Ctd align=\"center\">OOM\u003C\u002Ftd>\n  \u003Ctd align=\"center\">OOM\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd align=\"center\">int4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">147.8\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>1.0\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">20.3\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd nowrap=\"nowrap\" align=\"left\" rowspan=\"2\">MiniCPM-o 4.5\u003C\u002Ftd>\n  \u003Ctd align=\"center\">bf16\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>154.3\u003C\u002Fins>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cins>19.0\u003C\u002Fins>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n  \u003Ctd align=\"center\">int4\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>212.3\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>0.6\u003C\u002Fb>\u003C\u002Ftd>\n  \u003Ctd align=\"center\">\u003Cb>11.0\u003C\u002Fb>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003C\u002Ftable>\n  \u003C\u002Fdiv>\n\u003C\u002Fdetails>\n\n**Note:** Scores marked with ∗ are from our evaluation; others are cited from referenced reports.\n\n\u003C\u002Fdetails>\n\n\n### Examples \u003C!-- omit in toc -->\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=6UzC-O1Q-1U\">\u003Cimg src=\".\u002Fassets\u002Fminicpmo4_5\u002Fvideo_play.png\", width=70%>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cdetails>\n\u003Csummary>Click to view detailed MiniCPM-o 4.5 examples and cases.\u003C\u002Fsummary>\n\n#### Omnimodal Full-Duplex Conversation \u003C!-- omit in toc -->\n\n> [!NOTE]\n> For detailed omnimodal full-duplex examples, refer to [Omnimodal Full-Duplex Casebook](https:\u002F\u002Fopenbmb.github.io\u002Fminicpm-o-4_5-omni\u002F)\n\n\n#### Realtime Speech Conversation \u003C!-- omit in toc -->\n\n> [!NOTE]\n> For detailed speech conversation examples, refer to [Audio Casebook](https:\u002F\u002Fopenbmb.github.io\u002Fminicpm-o-4_5\u002F)\n\n\u003Cdetails>\n\u003Csummary>🚀 \u003Cb>Elon Musk\u003C\u002Fb> - Voice Roleplay (EN)\u003C\u002Fsummary>\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd width=\"70%\" valign=\"top\">\n\n**System:**\n> Clone the voice in the provided audio prompt.\n> \n> 🎙️ **[Reference Voice]** ➡️\n> \n> Please chat with the user in a highly human-like and oral style. You are Elon Musk, CEO of Tesla and SpaceX. You speak directly and casually, often with dry humor. You're passionate about Mars, sustainable energy, and pushing humanity forward. Speak bluntly with occasional dark humor. Use simple logic and don't sugarcoat things. Don't be diplomatic. Say what you actually think, even if it's controversial. Keep responses around 100 words. Don't ramble.\n\n\u003C\u002Ftd>\n\u003Ctd width=\"30%\" valign=\"top\">\n\n\u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F3011b07d-e3f4-4e2c-9020-37f7e364b7f3\" controls>\u003C\u002Fvideo>\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\u003Ctd colspan=\"2\">\u003Chr>\u003C\u002Ftd>\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd colspan=\"2\">\n\n**User:** 💬\u002F🎙️ *(text or speech)*\n> *Elon, what is the real reason that you want to go to Mars?*\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\u003Ctd colspan=\"2\">\u003Chr>\u003C\u002Ftd>\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd valign=\"top\">\n\n**AI Response:** 💬+🎙️\n> *I think it's important for humanity to become a multi-planetary species. I mean, we're sort of at the point where if there was some kind of global catastrophe or something like that, then we'd be in big trouble. So by becoming a multi-planetary species, I just want us to sort of guarantee our future as humans. And Mars is obviously the obvious place to go because it has similar conditions to Earth and it also has water on its surface. So yeah, basically I'm trying to save humanity from itself.*\n\n\u003C\u002Ftd>\n\u003Ctd valign=\"top\">\n\n\u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F6b4ef67d-8095-40df-a061-99ea8db3b18e\" controls>\u003C\u002Fvideo>\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>🤖 \u003Cb>MiniCPM Assistant\u003C\u002Fb> - Voice Acting: Emotion Shift (ZH)\u003C\u002Fsummary>\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd width=\"70%\" valign=\"top\">\n\n**System:**\n> 模仿音频样本的音色并生成新的内容。\n> \n> 🎙️ **[Reference Voice]** ➡️\n> \n> 你的任务是用这种声音模式来当一个助手。请认真、高质量地回复用户的问题。请用高自然度的方式和用户聊天。你是由面壁智能开发的人工智能助手：面壁小钢炮。\n\n\u003C\u002Ftd>\n\u003Ctd width=\"30%\" valign=\"top\">\n\n\u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fb8b85a29-e623-4f45-bf95-4d43582e836c\" controls>\u003C\u002Fvideo>\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\u003Ctd colspan=\"2\">\u003Chr>\u003C\u002Ftd>\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd colspan=\"2\">\n\n**User:** 💬\u002F🎙️ *(text or speech)*\n> *从激动的语气开始，描述你抢到了这个演唱会的门票，但后来经过反复尝试，发现系统出了问题，你并没有抢上，变得失落。用合适的语言描述你整个的过程。*\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\u003Ctd colspan=\"2\">\u003Chr>\u003C\u002Ftd>\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd vali","MiniCPM-V 是一个专为手机设计的高效图像和视频理解的小型多模态大语言模型。其核心功能包括对图像、视频和文本输入的理解，采用最新的intra-ViT早期压缩技术，将视觉编码计算成本降低了50%以上，并支持4x\u002F16x混合视觉令牌压缩率，以实现不同任务中性能与效率之间的灵活平衡。MiniCPM-V 4.6版本拥有13亿参数，在保持高性能的同时，展现出优于一些更大或更小模型的效率优势。此项目非常适合需要在移动设备（如iOS、Android及HarmonyOS平台）上进行超高效多媒体内容处理的应用场景使用。",2,"2026-06-11 03:39:24","high_star"]