支持的格式
Docling 可以将各种文档格式解析为统一的表示形式(Docling Document),并且可以导出到不同的格式——详细信息请查看 Architecture。
下面您可以找到所有支持的输入和输出格式的列表。
支持的输入格式
| 格式 | 描述 |
|---|---|
| DOCX, XLSX, PPTX | 基于Office Open XML的MS Office 2007+默认格式 |
| 标记语言 | |
| AsciiDoc | |
| HTML, XHTML | |
| CSV | |
| PNG, JPEG, TIFF, BMP | 图像格式 |
特定于模式的支持:
| 格式 | 描述 |
|---|---|
| USPTO XML | 遵循USPTO专利的XML格式 |
| JATS XML | 由JATS文章采用的XML格式 |
| Docling JSON | JSON序列化的 Docling Document |
支持的输出格式
| 格式 | 描述 |
|---|---|
| HTML | 支持图像嵌入和引用 |
| 标记语言 | |
| JSON | Docling 文档的无损序列化 |
| 文本 | 纯文本,即没有Markdown标记 |
| 文档标签 |