当前位置:微丽宝 > AI > 正文内容

Dolphin开源模型-文档支持解析将解析结果转换为结构化的 JSON 和 Markdown 格式

我是贝东3个月前 (05-23)AI335

Dolphin 是字节跳动开源的轻量级、高效的文档解析模型。基于先解析结构后解析内容的两阶段方法第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的代码和预训练模型已公开,方便开发者使用和研究。

Dolphin开源模型-文档支持解析将解析结果转换为结构化的 JSON 和 Markdown 格式-微丽宝(丽宝云)

Dolphin 提供了两个推理框架,支持两种解析粒度:

页面级解析:将整个文档图像解析为结构化的 JSON 和 Markdown 格式 

元素级解析:解析单个文档元素(文本、表格、公式)

Dolphin的技术原理

页面级布局分析:

用Swin Transformer对输入的文档图像进行编码,提取视觉特征。基于解码器生成文档元素序列,每个元素包含其类别(如标题、表格、图表等)和坐标位置。

这一阶段的目标是按照自然阅读顺序生成结构化的布局信息。

 元素级内容解析:

根据第一阶段生成的布局信息,从原始图像中裁剪出每个元素的局部视图。用特定的提示词(prompts),对每个元素进行并行内容解析。例如,表格用专门的提示词解析HTML格式,公式和文本段落共享提示词解析LaTeX格式。解码器根据裁剪后的元素图像和提示词,生成最终的解析内容。

Dolphin的应用场景

学术研究:

解析论文中的文本、公式和图表,助力文献整理和数据分析。 商业办公:提取商业文档的关键信息,便于合同审查和报告生成。 

教育领域:

将教材和试卷数字化,支持在线学习和多语言教学。

 技术开发:

解析技术文档,方便代码管理和技术交流。 

日常应用:

快速处理日常文档,提高办公效率。

项目地址:https://github.com/bytedance/Dolphin


版权声明:本站仅提供信息存储服务,不拥有所有权。本站部分用户自发贡献,该文观点仅代表作者本人。本站不承担相关法律责任,如发现作者本人涉及侵权或者违法违规内容请联系QQ85402604立即删除。Email:xu@dcyz.cn


本文链接:https://www.dcyzq.com/post/253.html

分享给朋友:

相关文章

ai工具AudioNotes,音视频转结构化笔记使用教程

工具介绍能够快速提取音视频的内容,并且调用大模型进行整理,成为一份结构化的markdown笔记,方便快速阅读效果展示音视频识别和整理与音视频内容对话使用方法安装 Ollama下载对应系统的 Ollam...

PP-DocBee-百度飞桨推出的文档图像理解多模态大模型

PP-DocBee是什么 PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中...

混元图生视频-腾讯混元开源的图生视频模型

混元图生视频是什么混元图生视频是腾讯混元推出的开源图生视频模型,用户可以通过上传一张图片进行简短描述,让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效自动生成等功能。模型适用于写实、动...

Heygem-硅基智能推出的开源AI智能数字人模型

Heygem是什么 Heygem 是硅基智能推出的开源数字人模型,专为 Windows 系统设计。基于先进的A!技术,仅需1秒视频或1张照片,能在 30 秒内完成数字人形...

Google Al Edge Gallery-支持离线运行AI模型无需联网即可使用

 Google Al Edge Gallery是谷歌推出的实验性工具,支持让用户在本地设备上体验和使用机器学习(ML)及生成式人工智能(GenAI)模型。而且无需联网即可使用。用户能切换不同...

stitch:一句话就可以生成IU界面支持多种图像格式

Stitch是谷歌实验室(Google Labs)推出的基于生成式人工智能工具。能将简单的英语描述或图像迅速转化为用户界面(UI)设计以及支持运行的前端代码。用户可以通过自然语言描述或上传视觉素材(如...

Botgroup.chat-开源的 AI 聊天应用,支持多个 A| 角色同时对话

Botgroup.chat 是基于 React 和 Cloudflare Pages 的多人 AI聊天应用。支持多个 AI角色同时参与对话,提供类似群聊的交互体验。用户可以自定义 A1 角色的性格和模...

Skywork UniPic 2.0:昆仑万维AI绘图神器,文字一键生成惊艳图像!

「“想做个创意海报,但不会PS?」「想设计游戏角色,但画不出来?」别担心!现在用 「Skywork UniPic 2.0」,输入文字就能生成专业级图片,「昆仑万维」的AI绘图工具让你秒变设计师!无论是...