Docling

Docling

正在初始化搜索

主页
概念
示例
集成
参考

Docling

首页
Home
概念
Concepts
示例
Examples
- 🔀 Conversion
  🔀 Conversion
- ✂️ Chunking
  ✂️ Chunking
  - 混合块处理
- 🤖 RAG with AI dev frameworks
  🤖 RAG with AI dev frameworks
- 🗂️ More examples
  🗂️ More examples
集成
Integrations
- 🤖 Agentic / AI dev frameworks
  🤖 Agentic / AI dev frameworks
- ⭐️ Featured
  ⭐️ Featured
- 🗂️ More integrations
  🗂️ More integrations
  - Cloudera
  - DocETL
  - Kotaemon
  - 打开合同
  - Vectara
Reference
Reference
- Python API
  Python API
- CLI
  CLI
  - CLI 参考

Table of contents

特性
- 即将推出
开始使用
IBM ❤️ 开源人工智能

Docling

Docling

Docling 简化了文档处理，解析多种格式——包括高级 PDF 理解——并提供与生成 AI 生态系统的无缝集成。

特点

🗂️ 解析多种文档格式，包括PDF, DOCX, XLSX, HTML, 图像等
📑 高级PDF理解，包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等
🧬 统一且富有表现力的 DoclingDocument 表示格式
↪️ 各种导出格式和选项，包括Markdown、HTML和无损JSON
🔒 适用于敏感数据和隔离环境的本地执行能力
🤖 即插即用的集成包括 LangChain、LlamaIndex、Crew AI 和 Haystack 用于智能代理 AI
🔍 对扫描的PDF和图像提供广泛的OCR支持
💻 简单方便的命令行界面

即将到来

📝 元数据提取，包括标题、作者、参考文献和语言
📝 视觉语言模型的包含 (SmolDocling)
📝 图表理解（柱状图、饼图、折线图等）
📝 复杂化学理解（分子结构）

开始使用

概念
学习 Docling 的基础知识示例
尝试各种用例的食谱，包括转换、RAG等集成
查看与流行框架和工具的集成参考
查看更多API详情

IBM ❤️ 开源人工智能

Docling 是由 IBM 提供的工具。

Made with MkDocs的材料