Langchain解析¶
解析原始文档以使用 langchain document_loaders。
按文件类型提供的解析方法¶
1. PDF¶
YAML配置示例¶
modules:
- module_type: langchain_parse
parse_method: [ pdfminer, pdfplumber ]
2. CSV¶
YAML配置示例¶
modules:
- module_type: langchain_parse
parse_method: csv
3. JSON¶
❗必填参数¶
jq_schema: 用于从JSON文件中提取内容的JSON查询模式。
YAML配置示例¶
- module_type: langchain_parse
parse_method: json
jq_schema: .messages[].content
4. Markdown¶
YAML配置示例¶
- module_type: langchain_parse
parse_method: unstructuredmarkdown
5. HTML¶
YAML配置示例¶
- module_type: langchain_parse
parse_method: bshtml
6. XML¶
YAML配置示例¶
- module_type: langchain_parse
parse_method: unstructuredxml
7. 所有文件¶
📌 需要API¶
您需要拥有API密钥才能使用以下文档加载器。
-
UNSTRUCTURED_API_KEY应在环境变量中设置。
-
UPSTAGE_API_KEY应设置在环境变量中。
YAML配置示例¶
- module_type: langchain_parse
parse_method: upstagedocumentparse
使用不在可用解析方法中的Parse方法¶
您可以在此处找到关于文档加载器的更多信息
使用方法¶
如果你想使用PyPDFDirectoryLoader(该解析方法不在可用方法列表中),可以使用以下代码。
from autorag.data import parse_modules
from langchain_community.document_loaders import PyPDFDirectoryLoader
parse_modules["pypdfdirectory"] = PyPDFDirectoryLoader
注意
parse_modules中的键值必须始终使用小写字母书写。