PyMuPDF 专业版#
PyMuPDF Pro 是 PyMuPDF 的一套 商业扩展。
增强 PyMuPDF 功能,支持 Office 文档和 RAG/LLM 集成。
启用 Office 文档处理,包括
doc、docx、hwp、hwpx、ppt、pptx、xls、xlsx和其他。支持文本和表格提取、文档转换等更多功能。
包含 PyMuPDF4LLM 的商业版本。
如需咨询获取商业许可证,请使用此联系页面。
注意
授权版本的 PyMuPDF Pro 还提供您一个授权版本的 PyMuPDF4LLM。如果您有兴趣使用 PyMuPDF4LLM 包,您应该单独安装它。
平台支持#
仅适用于这些平台:
Windows x86_64.
Linux x86_64 (glibc)。
MacOS x86_64.
MacOS arm64.
Office 文件支持#
除了PyMuPDF 支持的标准文件类型以外,PyMuPDF Pro 还支持:
用法#
安装#
通过 pip 安装:
pip install pymupdfpro
加载一个Office文档#
导入 PyMuPDF Pro 然后您可以直接引用 Office 文档,例如:
import pymupdf.pro
pymupdf.pro.unlock()
# PyMuPDF has now been extended with PyMuPDF Pro features, with some restrictions.
doc = pymupdf.open("my-office-doc.xls")
注意
所有标准PyMuPDF功能如预期一样暴露出来 - PyMuPDF Pro处理扩展的Office文件类型
从那时起,您可以像往常一样处理文档页面,但要遵守限制。
限制条件#
PyMuPDF Pro 的功能在没有许可密钥的情况下受到限制,如下所示:
任何文档仅提供前3页。
要解锁完整功能,您应该 获取一个试用密钥。
试用密钥#
要获取许可证密钥 请填写此页面上的表格。然后,试用密钥将通过电子邮件发送到您提交的地址。
使用一个键#
使用以下密钥初始化 PyMuPDF Pro:
import pymupdf.pro
pymupdf.pro.unlock(my_key)
# PyMuPDF has now been extended with PyMuPDF Pro features.
这将允许您在有限的时间内评估该产品。如果您希望在此之后使用 PyMuPDF Pro,您应该 咨询获取商业许可证。
字体#
默认情况下 pymupdf.pro.unlock() 会搜索所有已安装的字体目录。
这可以通过仅关键字参数来控制:
fontpath: 特定的字体目录,可以是列表/元组或os.sep分隔的字符串。 如果为None(默认值),我们将使用os.environ['PYMUPDFPRO_FONT_PATH'](如果已设置)。fontpath_auto: 是否附加系统字体目录。 如果为None(默认值),我们在os.environ['PYMUPDFPRO_FONT_PATH_AUTO']为‘1’时使用true。 如果为true,我们会附加所有系统字体目录。
函数 pymupdf.pro.get_fontpath() 返回一个包含 unlock() 使用的所有字体目录的元组。