Langchain解析

解析原始文档以使用 langchain document_loaders

按文件类型提供的解析方法

1. PDF

YAML配置示例

modules:
  - module_type: langchain_parse
    parse_method: [ pdfminer, pdfplumber ]

2. CSV

YAML配置示例

modules:
  - module_type: langchain_parse
    parse_method: csv

3. JSON

❗必填参数

  • jq_schema: 用于从JSON文件中提取内容的JSON查询模式。

YAML配置示例

  - module_type: langchain_parse
    parse_method: json
    jq_schema: .messages[].content

4. Markdown

YAML配置示例

  - module_type: langchain_parse
    parse_method: unstructuredmarkdown

5. HTML

YAML配置示例

  - module_type: langchain_parse
    parse_method: bshtml

6. XML

YAML配置示例

  - module_type: langchain_parse
    parse_method: unstructuredxml

7. 所有文件

📌 需要API

您需要拥有API密钥才能使用以下文档加载器。

YAML配置示例

  - module_type: langchain_parse
    parse_method: upstagedocumentparse

使用不在可用解析方法中的Parse方法

您可以在此处找到关于文档加载器的更多信息

使用方法

如果你想使用PyPDFDirectoryLoader(该解析方法不在可用方法列表中),可以使用以下代码。

from autorag.data import parse_modules
from langchain_community.document_loaders import PyPDFDirectoryLoader

parse_modules["pypdfdirectory"] = PyPDFDirectoryLoader

注意

parse_modules中的键值必须始终使用小写字母书写。