Langchain解析¶

按文件类型提供的解析方法¶

1. PDF¶

YAML配置示例¶

modules:
  - module_type: langchain_parse
    parse_method: [ pdfminer, pdfplumber ]

2. CSV¶

YAML配置示例¶

modules:
  - module_type: langchain_parse
    parse_method: csv

3. JSON¶

JSON

❗必填参数¶

jq_schema: 用于从JSON文件中提取内容的JSON查询模式。

YAML配置示例¶

  - module_type: langchain_parse
    parse_method: json
    jq_schema: .messages[].content

4. Markdown¶

UnstructuredMarkdown

YAML配置示例¶

  - module_type: langchain_parse
    parse_method: unstructuredmarkdown

5. HTML¶

BSHTML

YAML配置示例¶

  - module_type: langchain_parse
    parse_method: bshtml

6. XML¶

UnstructuredXML

YAML配置示例¶

  - module_type: langchain_parse
    parse_method: unstructuredxml

7. 所有文件¶

📌 需要API¶

您需要拥有API密钥才能使用以下文档加载器。

Unstructured
- UNSTRUCTURED_API_KEY 应在环境变量中设置。
UpstageDocumentParseLoader
- UPSTAGE_API_KEY 应设置在环境变量中。

YAML配置示例¶

  - module_type: langchain_parse
    parse_method: upstagedocumentparse

使用不在可用解析方法中的Parse方法¶

您可以在此处找到关于文档加载器的更多信息

使用方法¶

如果你想使用PyPDFDirectoryLoader（该解析方法不在可用方法列表中），可以使用以下代码。

from autorag.data import parse_modules
from langchain_community.document_loaders import PyPDFDirectoryLoader

parse_modules["pypdfdirectory"] = PyPDFDirectoryLoader

注意

parse_modules中的键值必须始终使用小写字母书写。