
text-extract-api
CatchTheTornado
Document (PDF, Word, PPTX ...) extraction and parse API using state of the art modern OCRs + Ollama supported models. Anonymize documents. Remove PII. Convert any document or picture to structured JSON or Markdown
AI 简介
text-extract-api 是一个用于从图像、PDF或Office文档中提取并解析文本到Markdown或JSON格式的API,支持最新的OCR技术和Ollama模型。其核心功能包括高精度的文本和表格数据提取、使用多种OCR策略(如Llama 3.2-vision、EasyOCR)进行转换、利用LLM改进OCR结果、去除个人身份信息(PII)、分布式队列处理(通过Celery)以及缓存机制(使用Redis)。此外,它还提供了灵活的存储策略选项(如Google Drive、本地文件系统等)和命令行工具以方便用户操作。此项目适用于需要高效准确地将各种文档转换为结构化数据,并且对隐私保护有较高要求的场景,例如医疗报告和财务发票处理。
Python
MIT License3.1k
Stars
276
Forks
14
Watchers
46
Issues
Star 增长
今日0
近 7 天0
近 30 天+6
综合评分49.93
默认分支main