browser_utils.mdconvert
_CustomMarkdownify
class _CustomMarkdownify(markdownify.MarkdownConverter)
markdownify 的 MarkdownConverter 自定义版本。更改包括:
- 将默认标题样式更改为使用'#','##'等。
- 移除javascript超链接。
- 截断具有大data:uri源的图像。
- 确保URI被正确转义,并且不与Markdown语法冲突
转换_hn
def convert_hn(n, el, text, convert_as_inline)
和往常一样,但请务必从新的一行开始
convert_a
def convert_a(el, text, convert_as_inline)
与常规转换器相同,但会移除 JavaScript 链接并转义 URI。
转换图像
def convert_img(el, text, convert_as_inline)
与通常的转换器相同,但会移除数据URI
DocumentConverterResult
class DocumentConverterResult()
将文档转换为文本的结果。
DocumentConverter
class DocumentConverter()
所有 DocumentConverters 的抽象超类。
纯文本转换器
class PlainTextConverter(DocumentConverter)
任何内容类型为 text/plain 的内容
HtmlConverter
class HtmlConverter(DocumentConverter)
任何内容类型为text/html的内容
WikipediaConverter
class WikipediaConverter(DocumentConverter)
单独处理维基百科页面,仅专注于主文档内容。
YouTube转换器
class YouTubeConverter(DocumentConverter)
特别处理YouTube,专注于视频标题、描述和字幕。
BingSerpConverter
class BingSerpConverter(DocumentConverter)
处理Bing结果页面(仅限有机搜索结果)。 注意:最好使用Bing API
PdfConverter
class PdfConverter(DocumentConverter)
将PDF转换为Markdown。大多数样式信息被忽略,因此结果基本上是纯文本。
DocxConverter
class DocxConverter(HtmlConverter)
将DOCX文件转换为Markdown。尽可能保留样式信息(例如标题)和表格。
XlsxConverter
class XlsxConverter(HtmlConverter)
将 XLSX 文件转换为 Markdown,每个工作表显示为一个单独的 Markdown 表格。
PptxConverter
class PptxConverter(HtmlConverter)
将PPTX文件转换为Markdown。支持标题、表格和带有替代文本的图像。
媒体转换器
class MediaConverter(DocumentConverter)
多模态媒体(如图像和音频)的抽象类
WavConverter
class WavConverter(MediaConverter)
通过提取元数据(如果安装了exiftool
)和语音转录(如果安装了speech_recognition
),将WAV文件转换为markdown。
Mp3转换器
class Mp3Converter(WavConverter)
通过提取元数据(如果安装了exiftool
)和语音转录(如果安装了speech_recognition
AND pydub
),将MP3文件转换为markdown。
图片转换器
class ImageConverter(MediaConverter)
通过提取元数据(如果安装了exiftool
)、OCR(如果安装了easyocr
)以及通过多模态LLM进行描述(如果配置了mlm_client),将图像转换为markdown。
Markdown转换器
class MarkdownConverter()
(预览中)一个极其简单的基于文本的文档阅读器,适用于LLM使用。 该阅读器将常见文件类型或网页转换为Markdown。
转换
def convert(source, **kwargs)
参数:
- source: 可以是一个表示路径或URL的字符串,或者是一个requests.response对象
- extension: 指定在解释文件时使用的文件扩展名。如果为None,则根据来源(路径、URI、内容类型等)推断。
register_page_converter
def register_page_converter(converter: DocumentConverter) -> None
注册一个页面文本转换器。