tesseract-ocr

tesseract

tesseract-ocr

Tesseract Open Source OCR Engine (main repository)

AI 简介

Tesseract是一个开源的光学字符识别(OCR)引擎。它支持通过神经网络(LSTM)进行行识别,同时兼容传统的基于字符模式识别的Tesseract 3 OCR引擎。Tesseract具备Unicode(UTF-8)支持,能够识别超过100种语言,并且支持多种图像格式如PNG、JPEG和TIFF等作为输入。输出格式多样,包括纯文本、hOCR(HTML)、PDF等多种形式。此项目非常适合需要从图片中提取文字信息的应用场景,例如文档数字化、自动化数据录入等领域。需要注意的是,为了获得更佳的OCR结果,可能需要先改善输入图像的质量。此外,该项目本身不包含图形用户界面应用。

C++
Apache License 2.0
74.6k
Stars
10.7k
Forks
1.7k
Watchers
432
Issues

Star 增长

今日+23
近 7 天+125
近 30 天+609
综合评分120
默认分支main