bytedance

Dolphin

bytedance

The official repo for “Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting”, ACL, 2025.

AI 简介

Dolphin 是一个用于文档图像解析的模型,通过异构锚点提示技术显著提升了文档解析能力。其核心功能包括文档类型识别(区分数字化和拍摄的文档)与布局分析、阅读顺序预测以及基于文档类型的两阶段解析策略:对拍摄文档进行整体解析,对数字文档进行并行元素级解析。Dolphin-v2 版本增强了模型参数至30亿,并支持21种元素检测及特定公式/代码解析等功能,适用于多种文档处理场景,如PDF转换、OCR识别等,尤其在处理复杂排版或包含多种内容形式(如文本段落、图表、公式、表格和代码块)的文档时表现出色。该模型采用轻量级架构设计,确保了高效运行。

Python
Other
9k
Stars
765
Forks
70
Watchers
69
Issues

Star 增长

今日+2
近 7 天+6
近 30 天+81
综合评分79.75
默认分支master