allenai

olmocr

allenai

Toolkit for linearizing PDFs for LLM datasets/training

AI 简介

olmocr是一个用于将PDF和其他基于图像的文档格式转换为干净、易读的纯文本格式的工具包。其核心功能包括支持PDF、PNG和JPEG文档转Markdown,能够处理公式、表格、手写体及复杂排版,并自动移除页眉页脚,确保即使在存在图表、多列布局和插图的情况下也能保持自然阅读顺序。技术上,它基于7B参数的视觉语言模型,需GPU支持,转换成本低于每百万页200美元。适用于需要高效准确地从扫描文档或PDF中提取文本信息的场景,如学术研究、企业文档管理和数字化图书馆建设等。

Python
Apache License 2.0
17.4k
Stars
1.4k
Forks
97
Watchers
55
Issues

Star 增长

今日0
近 7 天+8
近 30 天+86
综合评分82.04
默认分支main