安装额外的语言包

OCRmyPDF 使用 Tesseract 进行 OCR,并依赖其语言包支持所有语言。 在大多数平台上,Tesseract 默认安装英语,但并不总是如此。

Tesseract 支持大多数语言。 语言通过标准化的三字母代码(称为 ISO 639-2 Alpha-3)进行标识。 Tesseract 的文档还列出了您语言的三字母代码。 有些是英语化的,例如西班牙语是 spa 而不是 esp,而其他则不是,例如德语是 deu,法语是 fra

语言包(严格来说,Tesseract的“traineddata”文件)通常对应于相关语言,但在某些情况下会使用不同的语言包。对于德语,“Fraktur”语言包可以帮助阅读Fraktur字体家族的旧材料(deu_frak)。一些社区已经将其文字从西里尔字母改为拉丁字母;乌兹别克语的西里尔字母版本为uzb_cyrl,拉丁字母版本为uzb

安装语言包后,您可以使用ocrmypdf -l 来使用它, 例如ocrmypdf -l spa。对于多语言文档,您可以指定所有预期的语言, 例如ocrmypdf -l eng+fra表示英语和法语。 除非指定了其他语言,否则默认使用英语。

对于Linux用户,您通常可以找到提供语言包的软件包。

平台安装步骤

Debian 和 Ubuntu (apt)

# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Install Chinese Simplified language pack
apt-get install tesseract-ocr-chi-sim

然后你可以传递-l LANG参数给OCRmyPDF,以提示它应该搜索哪些语言。可以使用-l eng+fra(英语和法语)或-l eng -l fra来请求多种语言。

Fedora

# Display a list of all Tesseract language packs
dnf search tesseract

# Install Chinese Simplified language pack
dnf install tesseract-langpack-chi_sim

然后你可以传递-l LANG参数给OCRmyPDF,以提示它应该搜索哪些语言。可以使用-l eng+fra(英语和法语)或-l eng -l fra来请求多种语言。

Arch Linux

# Display a list of all Tesseract language packs
pacman -Ss tesseract-data

# Install German language pack
pacman -S tesseract-data-deu

然后你可以传递-l LANG参数给OCRmyPDF,以提示它应该搜索哪些语言。可以使用-l eng+fra(英语和法语)或-l eng -l fra来请求多种语言。

Gentoo

在Gentoo上,包app-text/tessdata_fast,即app-text/tesseract所依赖的包,负责处理Tesseract语言。 它接受USE标志来选择应安装的语言,这些标志可以在/etc/portage/package.use中设置。 或者,可以在/etc/portage/make.conf中全局设置L10N使用扩展。 这将为所有包(例如包括aspell)启用这些语言。

# Display a list of all Tesseract language packs
equery uses app-text/tessdata_fast

# Add English and German language support for Tesseract only
echo 'app-text/tessdata_fast l10n_de l10n_en' >> /etc/portage/package.use

# Add global English and German language support (the `l10n_` from equery has to be omitted)
echo L10N="de en" >> /etc/portage/make.conf

# update system to reflect changed USE flags
emerge --update --deep --newuse @world

然后你可以传递-l LANG参数给OCRmyPDF,以提示它应该搜索哪些语言。可以使用-l eng+fra(英语和法语)或-l eng -l fra来请求多种语言。

macOS

您可以通过 使用Homebrew安装Tesseract并包含所有语言包来安装额外的语言包。

Docker

OCRmyPDF Docker 镜像的用户应按照 该部分所述将语言包安装到派生的 Docker 镜像中。

Windows

Chocolatey 提供的 Tesseract 安装程序目前仅包含英语语言。 要安装其他语言,请从 https://github.com/tesseract-ocr/tessdata/ 下载相应的语言包(.traineddata 文件) 并将其放置在 C:\\Program Files\\Tesseract-OCR\\tessdata(或 Tesseract OCR 安装的任何位置)。

自定义语言包

如果您已经微调或训练了Tesseract并生成了自定义的训练数据,您可以将您的customlang.traineddata文件复制到Tesseract的“tessdata”文件夹中,然后使用-l customlang参数告诉OCRmyPDF将该语言传递给Tesseract。