Tools
Firecrawl 抓取网站
FirecrawlScrapeWebsiteTool 旨在抓取网站并将其转换为干净的Markdown或结构化数据。
FirecrawlScrapeWebsiteTool
描述
Firecrawl 是一个用于爬取并将任何网站转换为干净的 Markdown 或结构化数据的平台。
安装
- 从firecrawl.dev获取API密钥,并在环境变量中设置它(
FIRECRAWL_API_KEY)。 - 安装Firecrawl SDK以及
crewai[tools]包:
示例
按如下方式使用FirecrawlScrapeWebsiteTool,以允许您的代理加载网站:
Code
参数
api_key: 可选。指定Firecrawl API密钥。默认为FIRECRAWL_API_KEY环境变量。url: 要抓取的URL。page_options: 可选的.onlyMainContent: 可选的. 仅返回页面的主要内容,不包括页眉、导航、页脚等。includeHtml: 可选的. 包含页面的原始HTML内容。将在响应中输出一个html键。
extractor_options: 可选。用于从页面内容中提取结构化信息的基于LLM的选项mode: 使用的提取模式,目前支持‘llm-extraction’extractionPrompt: 可选。描述从页面中提取什么信息的提示extractionSchema: 可选。要提取的数据的模式
timeout: 可选。请求的超时时间,以毫秒为单位
