跳到内容

支持的格式

Docling 可以将各种文档格式解析为统一的表示形式(Docling Document),并且可以导出到不同的格式——详细信息请查看 Architecture

下面您可以找到所有支持的输入和输出格式的列表。

支持的输入格式

格式 描述
PDF
DOCX, XLSX, PPTX 基于Office Open XML的MS Office 2007+默认格式
标记语言
AsciiDoc
HTML, XHTML
CSV
PNG, JPEG, TIFF, BMP 图像格式

特定于模式的支持:

格式 描述
USPTO XML 遵循USPTO专利的XML格式
JATS XML JATS文章采用的XML格式
Docling JSON JSON序列化的 Docling Document

支持的输出格式

格式 描述
HTML 支持图像嵌入和引用
标记语言
JSON Docling 文档的无损序列化
文本 纯文本,即没有Markdown标记
文档标签