文档预测¶
先决条件¶
处理文档数据依赖于光学字符识别(OCR)包 tesseract
。
对于Ubuntu用户,您可以通过简单地运行以下命令来安装Tesseract及其开发者工具:
sudo apt install tesseract-ocr
对于macOS用户,运行:
sudo port install tesseract
或运行:
brew install tesseract
对于Windows用户,可以从Tesseract在UB-Mannheim获取安装程序。 为了从任何位置访问tesseract-OCR,您可能需要将tesseract-OCR二进制文件所在的目录添加到Path变量中。
如需额外支持,请参考tesseract的官方说明
快速开始¶
AutoMM for Scanned Document Classification
如何使用AutoMM构建扫描文档分类器。
Classifying PDF Documents with AutoMM
如何使用AutoMM构建PDF文档分类器。