FirecrawlCrawlWebsiteTool

描述

Firecrawl 是一个用于爬取并将任何网站转换为干净的 Markdown 或结构化数据的平台。

安装

  • firecrawl.dev获取API密钥,并在环境变量中设置它(FIRECRAWL_API_KEY)。
  • 安装Firecrawl SDK以及crewai[tools]包:
pip install firecrawl-py 'crewai[tools]'

示例

按如下方式使用 FirecrawlScrapeFromWebsiteTool,以允许您的代理加载网站:

Code
from crewai_tools import FirecrawlCrawlWebsiteTool

tool = FirecrawlCrawlWebsiteTool(url='firecrawl.dev')

参数

  • api_key: 可选。指定Firecrawl API密钥。默认为FIRECRAWL_API_KEY环境变量。
  • url: 开始爬取的基础URL。
  • page_options: 可选的.
    • onlyMainContent: 可选的. 仅返回页面的主要内容,不包括页眉、导航、页脚等。
    • includeHtml: 可选的. 包含页面的原始HTML内容。将在响应中输出一个html键。
  • crawler_options: 可选。控制爬取行为的选项。
    • includes: 可选。要包含在爬取中的URL模式。
    • exclude: 可选。要从爬取中排除的URL模式。
    • generateImgAltText: 可选。使用LLMs为图像生成alt文本(需要付费计划)。
    • returnOnlyUrls: 可选。如果为true,仅在爬取状态中返回URL列表。注意:响应将是数据中的URL列表,而不是文档列表。
    • maxDepth: 可选。爬取的最大深度。深度1是基础URL,深度2包括基础URL及其直接子URL,依此类推。
    • mode: 可选。使用的爬取模式。快速模式在没有站点地图的网站上爬取速度快4倍,但可能不够准确,不应在大量使用JavaScript渲染的网站上使用。
    • limit: 可选。要爬取的最大页面数。
    • timeout: 可选。爬取操作的超时时间(以毫秒为单位)。

这个页面有帮助吗?