安装
要使用 Docling,只需从您的 Python 包管理器安装 docling,例如 pip:
pip install docling
支持macOS、Linux和Windows,兼容x86_64和arm64架构。
Alternative PyTorch distributions
Docling模型依赖于PyTorch库。 根据您的架构,您可能想使用不同版本的torch。 例如,您可能想要支持不同的加速器或仅支持CPU版本。 安装torch的所有不同方法都列在他们的网站https://pytorch.org/上。
一个常见的情况是在仅支持CPU的Linux系统上的安装。 在这种情况下,我们建议使用以下选项安装Docling。
# Example for installing on the Linux cpu-only version
pip install docling --extra-index-url https://download.pytorch.org/whl/cpu
Alternative OCR engines
Docling 支持多种 OCR 引擎用于处理扫描文档。当前版本提供以下引擎。
| 引擎 | 安装 | 使用 |
|---|---|---|
| EasyOCR | Default in Docling or via pip install easyocr. |
EasyOcrOptions |
| Tesseract | System dependency. See description for Tesseract and Tesserocr below. | TesseractOcrOptions |
| Tesseract CLI | System dependency. See description below. | TesseractCliOcrOptions |
| OcrMac | System dependency. See description below. | OcrMacOptions |
| RapidOCR | Extra feature not included in Default Docling installation can be installed via pip install rapidocr_onnxruntime |
RapidOcrOptions |
Docling DocumentConverter 允许通过 ocr_options 设置选择 OCR 引擎。例如
from docling.datamodel.base_models import ConversionStatus, PipelineOptions
from docling.datamodel.pipeline_options import PipelineOptions, EasyOcrOptions, TesseractOcrOptions
from docling.document_converter import DocumentConverter
pipeline_options = PipelineOptions()
pipeline_options.do_ocr = True
pipeline_options.ocr_options = TesseractOcrOptions() # Use Tesseract
doc_converter = DocumentConverter(
pipeline_options=pipeline_options,
)
Tesseract 安装
Tesseract 是一个流行的 OCR 引擎,适用于大多数操作系统。要在 Docling 中使用这个引擎,必须在您的系统上安装 Tesseract,使用您选择的包管理工具。下面我们提供示例命令。安装 Tesseract 后,您需要通过 TESSDATA_PREFIX 环境变量提供其语言文件的路径(请注意,路径必须以斜杠 / 结尾)。
brew install tesseract leptonica pkg-config
TESSDATA_PREFIX=/opt/homebrew/share/tessdata/
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
apt-get install tesseract-ocr tesseract-ocr-eng libtesseract-dev libleptonica-dev pkg-config
TESSDATA_PREFIX=$(dpkg -L tesseract-ocr-eng | grep tessdata$)
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
dnf install tesseract tesseract-devel tesseract-langpack-eng leptonica-devel
TESSDATA_PREFIX=/usr/share/tesseract/tessdata/
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
链接到 Tesseract
Tesseract 库的最有效用法是通过链接。Docling 正在使用 Tesserocr 包来实现这一点。如果您遇到Tesserocr的安装问题,我们建议使用以下安装选项:
pip uninstall tesserocr
pip install --no-binary :all: tesserocr
ocrmac 安装
ocrmac 正在使用 苹果的视觉(或实时文本)框架作为OCR后台。 要在Docling中使用此引擎,必须在您的系统上安装ocrmac。 这仅适用于拥有较新macOS版本(10.15+)的macOS系统。
pip install ocrmac
开发设置
要开发Docling的功能、修复错误等,请从本地克隆的根目录按如下方式安装:
poetry install --all-extras