English日本語 Find #pymupdf on Discord Do you have any feedback on this page? 欢迎来到 PyMuPDF# PyMuPDF 是一个高性能的 Python 库,用于数据提取、分析、转换和处理 PDF (以及其他)文档。 PyMuPDF 托管在 GitHub 上,并注册于 PyPI。 此文档涵盖所有版本,直到1.25.2。 关于 功能比较 性能 许可和版权 PyMuPDF4LLM PyMuPDF Pro 用户指南 安装 基础知识 教程 PyMuPDF, LLM & RAG 资源 指南 打开文件 支持的文件类型 如何打开文件 用错误的文件扩展名打开 打开远程文件 从云服务打开文件 以文本格式打开文件 示例 文本 如何提取所有文档文本 如何提取文本为Markdown 如何从页面中提取键值对 如何从矩形中提取文本 如何按自然阅读顺序提取文本 如何从文档中提取表格内容 如何标记提取的文本 如何标记搜索的文本 如何标记非水平文本 如何分析字体特征 如何插入文本 如何编写文本行 如何填写文本框 如何用HTML文本填充一个框 如何提取带颜色的文本 图片 如何从文档页面制作图像 如何提高图像分辨率 如何创建部分像素图(剪辑) 如何将剪辑缩放到GUI窗口 如何创建或抑制注释图像 如何提取图片:非PDF文档 如何提取图像:PDF 文档 如何处理图像遮罩 如何将所有图片(或文件)制作成一个PDF 如何创建矢量图像 如何转换图像 如何使用位图:粘贴图像 如何使用图像: 制作分形 如何与NumPy接口 如何在PDF页面中添加图片 如何使用位图:检查文本可见性 注释 如何添加和修改注释 如何使用FreeText 使用按钮和JavaScript 如何使用墨水注释 绘图和图形 如何提取图纸 如何删除图形 如何绘制图形 故事 如何添加带有一些格式的文本行 如何使用图像 如何读取外部HTML和CSS以用于故事 如何使用故事模板输出数据库内容 如何与现有的PDF集成 如何制作多列布局并访问包pymupdf-fonts中的字体 如何制作一个围绕预定义的“禁区”布局的布局 如何输出一个HTML表格 如何创建一个简单的网格布局 如何生成目录 如何从JSON数据中显示列表 使用替代的 Story.write*() 函数 如何使用 Story.write() 做基本布局 如何为目录做迭代布局与 Story.write_stabilized() 如何执行迭代布局并使用 Story.write_stabilized_links() 创建PDF链接 日志记录 示例会话 1 示例会话 2 多进程 光学字符识别 - Optical Character Recognition 如何进行图像OCR 如何进行文档页面的OCR 可选内容支持 介绍:可选内容概念 PyMuPDF 对 PDF 可选内容的支持 如何添加可选内容 如何定义复杂的可选内容条件 低级接口 如何遍历 xref 表 如何处理对象流 如何处理页面内容 如何访问PDF目录 如何访问PDF文件的封面 如何访问XML元数据 如何扩展PDF元数据 如何读取和更新PDF对象 常见问题及其解决方案 如何动态清理损坏的PDF 如何将任何文档转换为 PDF 更改注释:意外行为 问题 原因 解决方案 缺失或无法读取的提取文本 问题:没有提取到文本 原因 解决方案 问题:不可读的文本 原因 解决方案 API 参考 命令行界面 调用 清理与复制 提取字体和图像 合并PDF文档 低级信息 嵌入文件命令 文本提取 班级 注释 档案 颜色空间 显示列表 文档 文档写入器 字体 身份 IRect 链接 linkDest 矩阵 大纲 页面 位图 点 四元 矩形 形状 故事 文本页面 文本写入器 工具 小部件 Xml 几何对象的算术运算 一般备注 一元操作 二元运算 一些示例 低级函数和类 函数 设备 协同工作:DisplayList 和 TextPage 词汇表 coordinate matrix_like rect_like irect_like point_like quad_like inheritable MediaBox CropBox catalog trailer 内容 resources dictionary page pagetree object stream unitvector xref fontsize resolution OCPD OCCD OCG OCMD ligature 常量和枚举 常量 文档权限 PDF 可选内容代码 PDF加密方法代码 字体文件扩展名 文本对齐 文本提取标志 链接目标种类 链接目标标志 注释相关常量 小部件常量 PDF标准混合模式 邮票注释图标 颜色数据库 函数 getColor() 打印颜色数据库 其他 附录 1:文本提取的详细信息 文本页的一般结构 普通文本 区块 单词 HTML 控制HTML输出的质量 字典 (或 JSON) RAWDICT(或 RAWJSON) XML XHTML 文本提取标志默认值 性能 附录 2:嵌入文件的考虑 常规 MuPDF 支持 PyMuPDF 支持 附录 3:各类技术信息 图像变换矩阵 PDF 基础 14 字体 Adobe PDF 参考资料 在PyMuPDF中将Python序列作为参数使用 确保PyMuPDF中重要对象的一致性 方法设计 Page.show_pdf_page() 诊断 坐标 附录4:性能比较方法论 使用的文件 使用的工具 复制 / 连接 / 合并 文本提取 页面渲染 变更日志 不推荐使用的名称 Do you have any feedback on this page? 本软件按原样提供,不作任何明示或暗示的担保。该软件根据许可证分发,除非按照该许可证的条款明确授权,否则不得复制、修改或分发。有关许可信息,请参阅artifex.com或联系Artifex Software Inc.,地址:39 Mesa Street, Suite 108A, San Francisco CA 94129, United States以获取更多信息。 此文档涵盖所有版本,直到1.25.2。