
chandra
datalab-to
OCR model that handles complex tables, forms, handwriting with full layout.
AI 简介
Chandra OCR 2 是一款先进的光学字符识别模型,能够处理图像和PDF文件,并将其转换为带有完整布局信息的结构化HTML/Markdown/JSON格式。其核心功能包括支持90多种语言、强大的手写识别能力、精确的表格与数学公式重建以及复杂文档布局的高精度提取。该模型采用Python开发,通过本地(HuggingFace)或远程(vLLM服务器)两种推理模式运行。适用于需要从扫描文档中高效准确地提取信息的各种场景,如企业文档管理、学术研究资料整理等。
Python
Apache License 2.011.2k
Stars
1.2k
Forks
78
Watchers
41
Issues
Star 增长
今日+48
近 7 天+147
近 30 天+620
综合评分119.19
默认分支master