跳转到内容

数据连接器 (LlamaHub)

数据连接器(又称Reader)从不同的数据源和数据格式中提取数据,并将其转换为简单的Document表示形式(文本和简单元数据)。

我们的数据连接器通过 LlamaHub 🦙 提供。 LlamaHub 是一个开源存储库,包含数据加载器,您可以轻松地即插即用到任何 LlamaIndex 应用程序中。

开始使用:

from llama_index.core import download_loader
from llama_index.readers.google import GoogleDocsReader
loader = GoogleDocsReader()
documents = loader.load_data(document_ids=[...])

查看完整的使用模式指南获取更多详情。

一些示例数据连接器:

  • 本地文件目录 (SimpleDirectoryReader)。支持解析多种文件类型:.pdf.jpg.png.docx等。
  • Notion (NotionPageReader)
  • 谷歌文档 (GoogleDocsReader)
  • Slack (SlackReader)
  • Discord (DiscordReader)
  • Apify Actors (ApifyActor)。能够爬取网页、抓取网页内容、提取文本内容,下载包括 .pdf.jpg.png.docx 等在内的文件。

查看模块指南获取更多详情。