跳到主要内容

browser_utils.mdconvert

_CustomMarkdownify

class _CustomMarkdownify(markdownify.MarkdownConverter)

markdownify 的 MarkdownConverter 自定义版本。更改包括:

  • 将默认标题样式更改为使用'#','##'等。
  • 移除javascript超链接。
  • 截断具有大data:uri源的图像。
  • 确保URI被正确转义,并且不与Markdown语法冲突

转换_hn

def convert_hn(n, el, text, convert_as_inline)

和往常一样,但请务必从新的一行开始

convert_a

def convert_a(el, text, convert_as_inline)

与常规转换器相同,但会移除 JavaScript 链接并转义 URI。

转换图像

def convert_img(el, text, convert_as_inline)

与通常的转换器相同,但会移除数据URI

DocumentConverterResult

class DocumentConverterResult()

将文档转换为文本的结果。

DocumentConverter

class DocumentConverter()

所有 DocumentConverters 的抽象超类。

纯文本转换器

class PlainTextConverter(DocumentConverter)

任何内容类型为 text/plain 的内容

HtmlConverter

class HtmlConverter(DocumentConverter)

任何内容类型为text/html的内容

WikipediaConverter

class WikipediaConverter(DocumentConverter)

单独处理维基百科页面,仅专注于主文档内容。

YouTube转换器

class YouTubeConverter(DocumentConverter)

特别处理YouTube,专注于视频标题、描述和字幕。

BingSerpConverter

class BingSerpConverter(DocumentConverter)

处理Bing结果页面(仅限有机搜索结果)。 注意:最好使用Bing API

PdfConverter

class PdfConverter(DocumentConverter)

将PDF转换为Markdown。大多数样式信息被忽略,因此结果基本上是纯文本。

DocxConverter

class DocxConverter(HtmlConverter)

将DOCX文件转换为Markdown。尽可能保留样式信息(例如标题)和表格。

XlsxConverter

class XlsxConverter(HtmlConverter)

将 XLSX 文件转换为 Markdown,每个工作表显示为一个单独的 Markdown 表格。

PptxConverter

class PptxConverter(HtmlConverter)

将PPTX文件转换为Markdown。支持标题、表格和带有替代文本的图像。

媒体转换器

class MediaConverter(DocumentConverter)

多模态媒体(如图像和音频)的抽象类

WavConverter

class WavConverter(MediaConverter)

通过提取元数据(如果安装了exiftool)和语音转录(如果安装了speech_recognition),将WAV文件转换为markdown。

Mp3转换器

class Mp3Converter(WavConverter)

通过提取元数据(如果安装了exiftool)和语音转录(如果安装了speech_recognition AND pydub),将MP3文件转换为markdown。

图片转换器

class ImageConverter(MediaConverter)

通过提取元数据(如果安装了exiftool)、OCR(如果安装了easyocr)以及通过多模态LLM进行描述(如果配置了mlm_client),将图像转换为markdown。

Markdown转换器

class MarkdownConverter()

(预览中)一个极其简单的基于文本的文档阅读器,适用于LLM使用。 该阅读器将常见文件类型或网页转换为Markdown。

转换

def convert(source, **kwargs)

参数:

  • source: 可以是一个表示路径或URL的字符串,或者是一个requests.response对象
  • extension: 指定在解释文件时使用的文件扩展名。如果为None,则根据来源(路径、URI、内容类型等)推断。

register_page_converter

def register_page_converter(converter: DocumentConverter) -> None

注册一个页面文本转换器。