Dolphin开源模型-文档支持解析将解析结果转换为结构化的 JSON 和 Markdown 格式

我是贝东2025-05-23 14:45AI与自动化工具543

Dolphin 是字节跳动开源的轻量级、高效的文档解析模型。基于先解析结构后解析内容的两阶段方法第一阶段生成文档布局元素序列，第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色，性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数，体积小、速度快，支持多种文档元素解析，包括文本、表格、公式等。Dolphin的代码和预训练模型已公开，方便开发者使用和研究。

Dolphin 提供了两个推理框架，支持两种解析粒度：

页面级解析：将整个文档图像解析为结构化的 JSON 和 Markdown 格式

元素级解析：解析单个文档元素（文本、表格、公式）

Dolphin的技术原理

页面级布局分析:

用Swin Transformer对输入的文档图像进行编码，提取视觉特征。基于解码器生成文档元素序列，每个元素包含其类别(如标题、表格、图表等)和坐标位置。

这一阶段的目标是按照自然阅读顺序生成结构化的布局信息。

元素级内容解析:

根据第一阶段生成的布局信息，从原始图像中裁剪出每个元素的局部视图。用特定的提示词(prompts)，对每个元素进行并行内容解析。例如，表格用专门的提示词解析HTML格式，公式和文本段落共享提示词解析LaTeX格式。解码器根据裁剪后的元素图像和提示词，生成最终的解析内容。

Dolphin的应用场景

学术研究:

解析论文中的文本、公式和图表，助力文献整理和数据分析。商业办公:提取商业文档的关键信息，便于合同审查和报告生成。

教育领域:

将教材和试卷数字化，支持在线学习和多语言教学。

技术开发:

解析技术文档，方便代码管理和技术交流。

日常应用:

快速处理日常文档，提高办公效率。

项目地址：https://github.com/bytedance/Dolphin

文章更新于：2025年05月26日(301天前)

本文链接：https://www.dcyzq.com/post/253.html

分享给朋友：

返回列表

下一篇：视频号权重怎么查询？保姆级教程！

你可能想看：

Codex发布了那么win版如何安装使用？

如果你是一名开发者，听到“AI编程助手”这个词，大概率已经对OpenAI推出的Codex有所耳闻。OpenAI Codex Windows 版已正式上架微软商店 Codex上线时间 • 上线时间：20...

PP-DocBee-百度飞桨推出的文档图像理解多模态大模型

PP-DocBee是什么PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构，具备强大的中文文档解析能力，能高效处理文字、...

Heygem-硅基智能推出的开源AI智能数字人模型

Heygem是什么Heygem 是硅基智能推出的开源数字人模型，专为 Windows 系统设计。基于先进的A!技术，仅需1秒视频或1张照片，能在 30 秒内完成数字人形象和声音克隆，在 60 秒内合成...

ai工具AudioNotes,音视频转结构化笔记使用教程

工具介绍能够快速提取音视频的内容，并且调用大模型进行整理，成为一份结构化的markdown笔记，方便快速阅读效果展示音视频识别和整理与音视频内容对话使用方法安装Ollama下载对应系统的Ollama安...

SoulX-Podcast：开源的播客语音合成模型在音色、语调上更自然!

开源播客AI来了！SoulX-Podcast模型能一键生成多人多轮对话语音，支持四川话等方言。为播客主、教育工作者和开发者提供专业级语音合成解决方案，大幅降低音频制作成本。

混元图生视频-腾讯混元开源的图生视频模型

混元图生视频是什么混元图生视频是腾讯混元推出的开源图生视频模型，用户可以通过上传一张图片进行简短描述，让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效自动生成等功能。模型适用于写实、动...

人人用得起的AI客服：开源KoalaQA+白菜价豆包模型，降本增效真香了！

智能客服已经成为当下的企业主的标配,然而不少企业主却一直在困扰于：动辄数十万的定制费用、并且还按调用次数计费带来的高昂成本，关键是反应迟钝、答非所问的“人工智障”真的是遭罪！给大家带来一款王炸组合，开...

stitch：一句话就可以生成IU界面支持多种图像格式

Stitch是谷歌实验室(Google Labs)推出的基于生成式人工智能工具。能将简单的英语描述或图像迅速转化为用户界面(UI)设计以及支持运行的前端代码。用户可以通过自然语言描述或上传视觉素材（如...

Dolphin开源模型-文档支持解析将解析结果转换为结构化的 JSON 和 Markdown 格式

Dolphin 提供了两个推理框架，支持两种解析粒度：

Dolphin的技术原理

Dolphin的应用场景

微丽宝

CopyRight © 2021-2026 丽宝云 | 陕ICP备20008766号 | 网站地图

Powered By Z-BlogPHP. Theme by TOYEAN.