browser_utils.mdconvert

_CustomMarkdownify

class _CustomMarkdownify(markdownify.MarkdownConverter)

markdownify 的 MarkdownConverter 自定义版本。更改包括：

将默认标题样式更改为使用'#'，'##'等。
移除javascript超链接。
截断具有大data:uri源的图像。
确保URI被正确转义，并且不与Markdown语法冲突

转换_hn

def convert_hn(n, el, text, convert_as_inline)

和往常一样，但请务必从新的一行开始

convert_a

def convert_a(el, text, convert_as_inline)

与常规转换器相同，但会移除 JavaScript 链接并转义 URI。

转换图像

def convert_img(el, text, convert_as_inline)

与通常的转换器相同，但会移除数据URI

DocumentConverterResult

class DocumentConverterResult()

将文档转换为文本的结果。

DocumentConverter

class DocumentConverter()

所有 DocumentConverters 的抽象超类。

纯文本转换器

class PlainTextConverter(DocumentConverter)

任何内容类型为 text/plain 的内容

HtmlConverter

class HtmlConverter(DocumentConverter)

任何内容类型为text/html的内容

WikipediaConverter

class WikipediaConverter(DocumentConverter)

单独处理维基百科页面，仅专注于主文档内容。

YouTube转换器

class YouTubeConverter(DocumentConverter)

特别处理YouTube，专注于视频标题、描述和字幕。

BingSerpConverter

class BingSerpConverter(DocumentConverter)

处理Bing结果页面（仅限有机搜索结果）。注意：最好使用Bing API

PdfConverter

class PdfConverter(DocumentConverter)

将PDF转换为Markdown。大多数样式信息被忽略，因此结果基本上是纯文本。

DocxConverter

class DocxConverter(HtmlConverter)

将DOCX文件转换为Markdown。尽可能保留样式信息（例如标题）和表格。

XlsxConverter

class XlsxConverter(HtmlConverter)

将 XLSX 文件转换为 Markdown，每个工作表显示为一个单独的 Markdown 表格。

PptxConverter

class PptxConverter(HtmlConverter)

将PPTX文件转换为Markdown。支持标题、表格和带有替代文本的图像。

媒体转换器

class MediaConverter(DocumentConverter)

多模态媒体（如图像和音频）的抽象类

WavConverter

class WavConverter(MediaConverter)

通过提取元数据（如果安装了exiftool）和语音转录（如果安装了speech_recognition），将WAV文件转换为markdown。

Mp3转换器

class Mp3Converter(WavConverter)

通过提取元数据（如果安装了exiftool）和语音转录（如果安装了speech_recognition AND pydub），将MP3文件转换为markdown。

图片转换器

class ImageConverter(MediaConverter)

通过提取元数据（如果安装了exiftool）、OCR（如果安装了easyocr）以及通过多模态LLM进行描述（如果配置了mlm_client），将图像转换为markdown。

Markdown转换器

class MarkdownConverter()

（预览中）一个极其简单的基于文本的文档阅读器，适用于LLM使用。该阅读器将常见文件类型或网页转换为Markdown。

转换

def convert(source, **kwargs)

参数:

source: 可以是一个表示路径或URL的字符串，或者是一个requests.response对象
extension: 指定在解释文件时使用的文件扩展名。如果为None，则根据来源（路径、URI、内容类型等）推断。

register_page_converter

def register_page_converter(converter: DocumentConverter) -> None

注册一个页面文本转换器。

_CustomMarkdownify​

转换_hn​

convert_a​

转换图像​

DocumentConverterResult​

DocumentConverter​

纯文本转换器​

HtmlConverter​

WikipediaConverter​

YouTube转换器

BingSerpConverter​

PdfConverter​

DocxConverter​

XlsxConverter​

PptxConverter​

媒体转换器​

WavConverter​

Mp3转换器​

图片转换器​

Markdown转换器​

转换​

register_page_converter​