文档预测

先决条件

处理文档数据依赖于光学字符识别(OCR)包 tesseract

对于Ubuntu用户,您可以通过简单地运行以下命令来安装Tesseract及其开发者工具:

sudo apt install tesseract-ocr

对于macOS用户,运行:

sudo port install tesseract

或运行:

brew install tesseract

对于Windows用户,可以从Tesseract在UB-Mannheim获取安装程序。 为了从任何位置访问tesseract-OCR,您可能需要将tesseract-OCR二进制文件所在的目录添加到Path变量中。

如需额外支持,请参考tesseract的官方说明

快速开始

AutoMM for Scanned Document Classification

如何使用AutoMM构建扫描文档分类器。

document_classification.html
Classifying PDF Documents with AutoMM

如何使用AutoMM构建PDF文档分类器。

pdf_classification.html