Dolphin开源模型-文档支持解析将解析结果转换为结构化的 JSON 和 Markdown 格式
Dolphin 是字节跳动开源的轻量级、高效的文档解析模型。基于先解析结构后解析内容的两阶段方法第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的代码和预训练模型已公开,方便开发者使用和研究。

Dolphin 提供了两个推理框架,支持两种解析粒度:
页面级解析:将整个文档图像解析为结构化的 JSON 和 Markdown 格式
元素级解析:解析单个文档元素(文本、表格、公式)
Dolphin的技术原理
页面级布局分析:
用Swin Transformer对输入的文档图像进行编码,提取视觉特征。基于解码器生成文档元素序列,每个元素包含其类别(如标题、表格、图表等)和坐标位置。
这一阶段的目标是按照自然阅读顺序生成结构化的布局信息。
元素级内容解析:
根据第一阶段生成的布局信息,从原始图像中裁剪出每个元素的局部视图。用特定的提示词(prompts),对每个元素进行并行内容解析。例如,表格用专门的提示词解析HTML格式,公式和文本段落共享提示词解析LaTeX格式。解码器根据裁剪后的元素图像和提示词,生成最终的解析内容。
Dolphin的应用场景
学术研究:
解析论文中的文本、公式和图表,助力文献整理和数据分析。 商业办公:提取商业文档的关键信息,便于合同审查和报告生成。
教育领域:
将教材和试卷数字化,支持在线学习和多语言教学。
技术开发:
解析技术文档,方便代码管理和技术交流。
日常应用:
快速处理日常文档,提高办公效率。
项目地址:https://github.com/bytedance/Dolphin
版权声明:本站仅提供信息存储服务,不拥有所有权。本站部分用户自发贡献,该文观点仅代表作者本人。本站不承担相关法律责任,如发现作者本人涉及侵权或者违法违规内容请联系QQ85402604立即删除。Email:xu@dcyz.cn