PDF优化
OCRmyPDF 包含一个面向图像的PDF优化器。默认情况下,优化器以安全设置运行,目标是在不损失质量的情况下提高压缩率。在更高的优化级别,可能会应用并调整有损优化。优化在OCR之后进行,并且仅在OCR成功时进行。它不会执行其他可能的优化,例如去重资源、合并字体、简化矢量绘图或任何类似的操作。
执行的优化类型将随时间而变化,并取决于第三方工具的可用性。
尽管进行了优化,OCRmyPDF 可能仍会增加文件的总体大小,因为它必须嵌入有关识别文本的信息,并且根据所选的设置,可能无法像输入文件那样紧凑地表示输出文件。
始终发生的优化
OCRmyPDF 会自动将过时或较差的压缩方案(如 RLE 或 LZW)替换为更优的方案(如 Deflate),并将单色图像转换为 CCITT G4。由于这是无损的,它总是会发生,无法禁用。其他非图像压缩对象也会被压缩。
快速网页视图
OCRmyPDF 自动优化 PDF 文件以实现 Adobe Acrobat 中的“快速网页查看”,或者等效地,线性化 PDF 文件,以便它们引用的资源按照查看者顺序显示所需的顺序呈现。这减少了在线和本地存储中查看 PDF 的延迟,以换取文件大小的略微增加。
要禁用此优化和所有其他优化,请使用 ocrmypdf --optimize 0 ...
或简写 -O0
。
Adobe Acrobat 可能不会将文件报告为“快速网页视图”。
无损优化
在优化级别 -O1
(默认情况下),OCRmyPDF 还将尝试无损图像优化。
如果有一个JBIG2编码器可用,那么单色图像将被转换为JBIG2格式,对于大型黑白图像来说,这可能会带来巨大的节省,因为JBIG2比任何其他单色(双级)压缩都要高效得多。(所有与JBIG2相关的美国专利可能已经过期,但用户仍需自行提供JBIG2编码器,例如jbig2enc。OCRmyPDF本身并不实现JBIG2编码。)
OCRmyPDF 目前不会尝试更积极地重新压缩无损压缩的对象。
有损优化
在优化级别 -O2
和 -O3
下,OCRmyPDF 会尝试进行有损图像优化。
如果安装了pngquant
,OCRmyPDF 将使用它来执行量化调色板图像以减少其大小。
JPEG的质量可能会降低,假设较低质量的图像可能适合OCR后的存储。
无法优化所有图像类型。优化器可能会跳过不常见的图像类型。
OCRmyPDF 提供了 有损模式 JBIG2 作为一项高级功能,该功能还需要额外的参数 --jbig2-lossy
。