文档预测¶

先决条件¶

处理文档数据依赖于光学字符识别（OCR）包 tesseract。

对于Ubuntu用户，您可以通过简单地运行以下命令来安装Tesseract及其开发者工具：

sudo apt install tesseract-ocr

对于macOS用户，运行：

sudo port install tesseract

或运行：

brew install tesseract

对于Windows用户，可以从Tesseract在UB-Mannheim获取安装程序。为了从任何位置访问tesseract-OCR，您可能需要将tesseract-OCR二进制文件所在的目录添加到Path变量中。

如需额外支持，请参考tesseract的官方说明

AutoMM for Scanned Document Classification

如何使用AutoMM构建扫描文档分类器。

Classifying PDF Documents with AutoMM

如何使用AutoMM构建PDF文档分类器。