
surya
datalab-to
OCR, layout analysis, reading order, table recognition in 90+ languages
AI 简介
Surya是一个文档OCR工具包,支持90多种语言的光学字符识别、布局分析、阅读顺序检测和表格识别。该项目采用Python开发,具备高精度的文字检测与识别能力,能够准确地进行文本行级检测、文档元素(如表格、图片、标题等)定位以及LaTeX OCR转换。Surya适用于需要处理多语言文档并提取结构化信息的各种场景,比如学术研究、法律文件处理或企业文档管理等。其开源性质加上强大的功能集,使得Surya成为追求高效且成本效益解决方案的理想选择。
Python
GNU General Public License v3.020.8k
Stars
1.5k
Forks
124
Watchers
147
Issues
Star 增长
今日+15
近 7 天+201
近 30 天+1041
综合评分119.51
默认分支master