Docling
Docling 简化了文档处理,解析多种格式——包括高级 PDF 理解——并提供与生成 AI 生态系统的无缝集成。
特点
- 🗂️ 解析多种文档格式,包括PDF, DOCX, XLSX, HTML, 图像等
- 📑 高级PDF理解,包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等
- 🧬 统一且富有表现力的 DoclingDocument 表示格式
- ↪️ 各种导出格式和选项,包括Markdown、HTML和无损JSON
- 🔒 适用于敏感数据和隔离环境的本地执行能力
- 🤖 即插即用的 集成 包括 LangChain、LlamaIndex、Crew AI 和 Haystack 用于智能代理 AI
- 🔍 对扫描的PDF和图像提供广泛的OCR支持
- 💻 简单方便的命令行界面
即将到来
- 📝 元数据提取,包括标题、作者、参考文献和语言
- 📝 视觉语言模型的包含 (SmolDocling)
- 📝 图表理解(柱状图、饼图、折线图等)
- 📝 复杂化学理解(分子结构)
开始使用
IBM ❤️ 开源人工智能
Docling 是由 IBM 提供的工具。