跳到内容

Docling

Docling DS4SD%2Fdocling | Trendshift

arXiv PyPI version PyPI - Python Version Poetry Code style: black Imports: isort Pydantic v2 pre-commit License MIT PyPI Downloads

Docling 简化了文档处理,解析多种格式——包括高级 PDF 理解——并提供与生成 AI 生态系统的无缝集成。

特点

  • 🗂️ 解析多种文档格式,包括PDF, DOCX, XLSX, HTML, 图像等
  • 📑 高级PDF理解,包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等
  • 🧬 统一且富有表现力的 DoclingDocument 表示格式
  • ↪️ 各种导出格式和选项,包括Markdown、HTML和无损JSON
  • 🔒 适用于敏感数据和隔离环境的本地执行能力
  • 🤖 即插即用的 集成 包括 LangChain、LlamaIndex、Crew AI 和 Haystack 用于智能代理 AI
  • 🔍 对扫描的PDF和图像提供广泛的OCR支持
  • 💻 简单方便的命令行界面

即将到来

  • 📝 元数据提取,包括标题、作者、参考文献和语言
  • 📝 视觉语言模型的包含 (SmolDocling)
  • 📝 图表理解(柱状图、饼图、折线图等)
  • 📝 复杂化学理解(分子结构)

开始使用

IBM ❤️ 开源人工智能

Docling 是由 IBM 提供的工具。