加载数据#
LlamaIndex中数据摄取的关键在于加载和转换。一旦加载了文档,您就可以通过转换处理它们并输出节点。
在您通过了解数据加载的基础知识后,可以继续阅读以下内容以深入了解:
加载中#
- SimpleDirectoryReader,我们内置的加载器,用于从本地目录加载各种文件类型
- LlamaParse,LlamaIndex官方提供的PDF解析工具,可作为托管API使用。
- LlamaHub, 我们收录了数百个数据加载库的注册中心,可从任何来源摄取数据
转换#
这包括常见的操作,比如文本分割。
- Node Parser 使用模式, 展示如何使用我们的节点解析器
- Node Parser Modules, showing our text splitters (sentence, token, HTML, JSON) and other parser modules.
整合所有内容#
- 数据摄取管道 允许您设置一个可重复、缓存优化的数据加载流程。
抽象概念#
- Document and Node objects 以及如何为更高级的用例自定义它们