Dolphin开源模型-文档支持解析将解析结果转换为结构化的 JSON 和 Markdown 格式

Dolphin 是字节跳动开源的轻量级、高效的文档解析模型。基于先解析结构后解析内容的两阶段方法第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的代码和预训练模型已公开,方便开发者使用和研究。

alt text

Dolphin 提供了两个推理框架,支持两种解析粒度:

页面级解析:将整个文档图像解析为结构化的 JSON 和 Markdown 格式 

元素级解析:解析单个文档元素(文本、表格、公式)

Dolphin的技术原理

页面级布局分析:

用Swin Transformer对输入的文档图像进行编码,提取视觉特征。基于解码器生成文档元素序列,每个元素包含其类别(如标题、表格、图表等)和坐标位置。

这一阶段的目标是按照自然阅读顺序生成结构化的布局信息。

 元素级内容解析:

根据第一阶段生成的布局信息,从原始图像中裁剪出每个元素的局部视图。用特定的提示词(prompts),对每个元素进行并行内容解析。例如,表格用专门的提示词解析HTML格式,公式和文本段落共享提示词解析LaTeX格式。解码器根据裁剪后的元素图像和提示词,生成最终的解析内容。

Dolphin的应用场景

学术研究:

解析论文中的文本、公式和图表,助力文献整理和数据分析。 商业办公:提取商业文档的关键信息,便于合同审查和报告生成。 

教育领域:

将教材和试卷数字化,支持在线学习和多语言教学。

 技术开发:

解析技术文档,方便代码管理和技术交流。 

日常应用:

快速处理日常文档,提高办公效率。

项目地址:https://github.com/bytedance/Dolphin


文章更新于:(301天前)

版权声明:本站文章内容由用户自发贡献,该文观点仅代表作者本人除特别声明外均采用 CC BY-NC-SA 3.0 许可协议。转载请注明出处!

本文链接:https://www.dcyzq.com/post/253.html

分享给朋友: