datalab-to

chandra

datalab-to

OCR model that handles complex tables, forms, handwriting with full layout.

AI 简介

Chandra OCR 2 是一款先进的光学字符识别模型,能够处理图像和PDF文件,并将其转换为带有完整布局信息的结构化HTML/Markdown/JSON格式。其核心功能包括支持90多种语言、强大的手写识别能力、精确的表格与数学公式重建以及复杂文档布局的高精度提取。该模型采用Python开发,通过本地(HuggingFace)或远程(vLLM服务器)两种推理模式运行。适用于需要从扫描文档中高效准确地提取信息的各种场景,如企业文档管理、学术研究资料整理等。

Python
Apache License 2.0
11.2k
Stars
1.2k
Forks
78
Watchers
41
Issues

Star 增长

今日+48
近 7 天+147
近 30 天+620
综合评分119.19
默认分支master