跳到内容

安装

要使用 Docling,只需从您的 Python 包管理器安装 docling,例如 pip:

pip install docling

支持macOS、Linux和Windows,兼容x86_64和arm64架构。

Alternative PyTorch distributions

Docling模型依赖于PyTorch库。 根据您的架构,您可能想使用不同版本的torch。 例如,您可能想要支持不同的加速器或仅支持CPU版本。 安装torch的所有不同方法都列在他们的网站https://pytorch.org/上。

一个常见的情况是在仅支持CPU的Linux系统上的安装。 在这种情况下,我们建议使用以下选项安装Docling。

# Example for installing on the Linux cpu-only version
pip install docling --extra-index-url https://download.pytorch.org/whl/cpu
Alternative OCR engines

Docling 支持多种 OCR 引擎用于处理扫描文档。当前版本提供以下引擎。

引擎 安装 使用
EasyOCR Default in Docling or via pip install easyocr. EasyOcrOptions
Tesseract System dependency. See description for Tesseract and Tesserocr below. TesseractOcrOptions
Tesseract CLI System dependency. See description below. TesseractCliOcrOptions
OcrMac System dependency. See description below. OcrMacOptions
RapidOCR Extra feature not included in Default Docling installation can be installed via pip install rapidocr_onnxruntime RapidOcrOptions

Docling DocumentConverter 允许通过 ocr_options 设置选择 OCR 引擎。例如

from docling.datamodel.base_models import ConversionStatus, PipelineOptions
from docling.datamodel.pipeline_options import PipelineOptions, EasyOcrOptions, TesseractOcrOptions
from docling.document_converter import DocumentConverter

pipeline_options = PipelineOptions()
pipeline_options.do_ocr = True
pipeline_options.ocr_options = TesseractOcrOptions()  # Use Tesseract

doc_converter = DocumentConverter(
    pipeline_options=pipeline_options,
)

Tesseract 安装

Tesseract 是一个流行的 OCR 引擎,适用于大多数操作系统。要在 Docling 中使用这个引擎,必须在您的系统上安装 Tesseract,使用您选择的包管理工具。下面我们提供示例命令。安装 Tesseract 后,您需要通过 TESSDATA_PREFIX 环境变量提供其语言文件的路径(请注意,路径必须以斜杠 / 结尾)。

brew install tesseract leptonica pkg-config
TESSDATA_PREFIX=/opt/homebrew/share/tessdata/
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
apt-get install tesseract-ocr tesseract-ocr-eng libtesseract-dev libleptonica-dev pkg-config
TESSDATA_PREFIX=$(dpkg -L tesseract-ocr-eng | grep tessdata$)
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
dnf install tesseract tesseract-devel tesseract-langpack-eng leptonica-devel
TESSDATA_PREFIX=/usr/share/tesseract/tessdata/
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"

链接到 Tesseract

Tesseract 库的最有效用法是通过链接。Docling 正在使用 Tesserocr 包来实现这一点。

如果您遇到Tesserocr的安装问题,我们建议使用以下安装选项:

pip uninstall tesserocr
pip install --no-binary :all: tesserocr

ocrmac 安装

ocrmac 正在使用 苹果的视觉(或实时文本)框架作为OCR后台。 要在Docling中使用此引擎,必须在您的系统上安装ocrmac。 这仅适用于拥有较新macOS版本(10.15+)的macOS系统。

pip install ocrmac

开发设置

要开发Docling的功能、修复错误等,请从本地克隆的根目录按如下方式安装:

poetry install --all-extras