datalab-to

marker

datalab-to

Convert PDF to markdown + JSON quickly with high accuracy

AI 简介

Marker 是一个能够将PDF文件快速准确地转换为Markdown和JSON格式的工具。它支持多种文件类型的转换,包括图像、PPTX、DOCX、XLSX、HTML以及EPUB,并且在所有语言中都能保持高精度。核心功能涵盖了表格、表单、公式、内联数学、链接、引用及代码块的格式化处理,同时还能提取并保存图片,去除页眉/页脚等非内容元素。此外,Marker提供了基于JSON模式的结构化数据抽取功能(测试版),并且可以通过大语言模型进一步提升转换准确性。该工具适合需要高效文档转换的应用场景,如学术研究、技术文档管理等领域。

Python
GNU General Public License v3.0
36k
Stars
2.5k
Forks
125
Watchers
344
Issues

Star 增长

今日+36
近 7 天+249
近 30 天+1087
综合评分120
默认分支master