
tesseract
tesseract-ocr
Tesseract Open Source OCR Engine (main repository)
AI 简介
Tesseract是一个开源的光学字符识别(OCR)引擎。它支持通过神经网络(LSTM)进行行识别,同时兼容传统的基于字符模式识别的Tesseract 3 OCR引擎。Tesseract具备Unicode(UTF-8)支持,能够识别超过100种语言,并且支持多种图像格式如PNG、JPEG和TIFF等作为输入。输出格式多样,包括纯文本、hOCR(HTML)、PDF等多种形式。此项目非常适合需要从图片中提取文字信息的应用场景,例如文档数字化、自动化数据录入等领域。需要注意的是,为了获得更佳的OCR结果,可能需要先改善输入图像的质量。此外,该项目本身不包含图形用户界面应用。
C++
Apache License 2.074.6k
Stars
10.7k
Forks
1.7k
Watchers
432
Issues
Star 增长
今日+23
近 7 天+125
近 30 天+609
综合评分120
默认分支main