dots.ocr

rednote-hilab

Multilingual Document Layout Parsing in a Single Vision-Language Model

AI 简介

dots.ocr 是一个基于视觉-语言模型的多语言文档版面解析系统，支持中、英、日、韩、阿拉伯等数十种文字的端到端识别与结构化理解。其核心能力包括文档区域分割（标题、段落、表格、图表）、多语种OCR识别、结构化图形（如流程图、柱状图）到SVG代码的直接生成，以及网页截图和场景文本解析。模型采用1.7B参数量的统一架构，在OmniDocBench等主流基准上达到SOTA性能。适用于金融报表解析、学术文献数字化、多语言合同处理、教育资料结构化等需要高精度版面理解与跨语言支持的办公自动化与内容智能处理场景。

Python

MIT License

在 GitHub 查看

Stars

801

Forks

Watchers

140

Issues

Star 增长

今日0

近 7 天0

近 30 天+28

综合评分67.51

默认分支master

dots.ocr

Star 增长

加入交流群