
omniparse
adithya-s-k
Ingest, parse, and optimize any data format ➡️ from documents to multimedia ➡️ for enhanced compatibility with GenAI frameworks
AI 简介
OmniParse 是一个用于处理非结构化数据的平台,能够将文档、多媒体和网页等格式的数据解析并转换为适用于生成式人工智能(GenAI)框架的结构化数据。该项目支持约20种文件类型,包括文本、表格、图片、音频、视频及网页内容的提取与转录,并且可以完全本地运行而无需依赖外部API。其核心功能涵盖高质量结构化Markdown输出、表格抽取、图像识别与标注、音视频转录以及网页爬取等。特别适合需要对多种类型的数据进行预处理以供后续AI应用如检索增强生成(RAG)、模型微调等领域使用。此外,OmniParse提供了易于部署的Docker镜像以及友好的Colab集成方式,使得开发者能够快速上手体验。
Python
GNU General Public License v3.07.5k
Stars
637
Forks
43
Watchers
63
Issues
Star 增长
今日0
近 7 天+56
近 30 天+717
综合评分84.41
默认分支main