PDF优化

OCRmyPDF 包含一个面向图像的PDF优化器。默认情况下,优化器以安全设置运行,目标是在不损失质量的情况下提高压缩率。在更高的优化级别,可能会应用并调整有损优化。优化在OCR之后进行,并且仅在OCR成功时进行。它不会执行其他可能的优化,例如去重资源、合并字体、简化矢量绘图或任何类似的操作。

执行的优化类型将随时间而变化,并取决于第三方工具的可用性。

尽管进行了优化,OCRmyPDF 可能仍会增加文件的总体大小,因为它必须嵌入有关识别文本的信息,并且根据所选的设置,可能无法像输入文件那样紧凑地表示输出文件。

始终发生的优化

OCRmyPDF 会自动将过时或较差的压缩方案(如 RLE 或 LZW)替换为更优的方案(如 Deflate),并将单色图像转换为 CCITT G4。由于这是无损的,它总是会发生,无法禁用。其他非图像压缩对象也会被压缩。

快速网页视图

OCRmyPDF 自动优化 PDF 文件以实现 Adobe Acrobat 中的“快速网页查看”,或者等效地,线性化 PDF 文件,以便它们引用的资源按照查看者顺序显示所需的顺序呈现。这减少了在线和本地存储中查看 PDF 的延迟,以换取文件大小的略微增加。

要禁用此优化和所有其他优化,请使用 ocrmypdf --optimize 0 ... 或简写 -O0

Adobe Acrobat 可能不会将文件报告为“快速网页视图”。

无损优化

在优化级别 -O1(默认情况下),OCRmyPDF 还将尝试无损图像优化。

如果有一个JBIG2编码器可用,那么单色图像将被转换为JBIG2格式,对于大型黑白图像来说,这可能会带来巨大的节省,因为JBIG2比任何其他单色(双级)压缩都要高效得多。(所有与JBIG2相关的美国专利可能已经过期,但用户仍需自行提供JBIG2编码器,例如jbig2enc。OCRmyPDF本身并不实现JBIG2编码。)

OCRmyPDF 目前不会尝试更积极地重新压缩无损压缩的对象。

有损优化

在优化级别 -O2-O3 下,OCRmyPDF 会尝试进行有损图像优化。

如果安装了pngquant,OCRmyPDF 将使用它来执行量化调色板图像以减少其大小。

JPEG的质量可能会降低,假设较低质量的图像可能适合OCR后的存储。

无法优化所有图像类型。优化器可能会跳过不常见的图像类型。

OCRmyPDF 提供了 有损模式 JBIG2 作为一项高级功能,该功能还需要额外的参数 --jbig2-lossy