`SpiderTool`

描述

Spider 是最快的开源抓取器和爬虫，能够返回适合LLM的数据。它将任何网站转换为纯HTML、markdown、元数据或文本，同时允许您使用AI进行自定义操作的爬取。

安装

要使用SpiderTool，你需要下载Spider SDK以及crewai[tools] SDK：

pip install spider-client 'crewai[tools]'

示例

这个例子向你展示了如何使用SpiderTool来使你的代理能够抓取和爬取网站。从Spider API返回的数据已经是LLM-ready的，因此不需要进行任何清理。

Code
from crewai_tools import SpiderTool

def main():
    spider_tool = SpiderTool()

    searcher = Agent(
        role="Web Research Expert",
        goal="Find related information from specific URL's",
        backstory="An expert web researcher that uses the web extremely well",
        tools=[spider_tool],
        verbose=True,
    )

    return_metadata = Task(
        description="Scrape https://spider.cloud with a limit of 1 and enable metadata",
        expected_output="Metadata and 10 word summary of spider.cloud",
        agent=searcher
    )

    crew = Crew(
        agents=[searcher],
        tasks=[
            return_metadata,
        ],
        verbose=2
    )

    crew.kickoff()

if __name__ == "__main__":
    main()

参数

参数	类型	描述
api_key	`string`	指定Spider API密钥。如果未指定，则在环境变量中查找`SPIDER_API_KEY`。
params	`object`	请求的可选参数。默认为 `{"return_format": "markdown"}` 以优化LLMs的内容。
request	`string`	要执行的请求类型（`http`, `chrome`, `smart`）。`smart` 默认为 HTTP，如果需要则切换到 JavaScript 渲染。
limit	`int`	每个网站爬取的最大页面数。设置为`0`或省略表示无限制。
depth	`int`	最大爬取深度。设置为`0`表示无限制。
cache	`bool`	启用HTTP缓存以加速重复运行。默认值为`true`。
budget	`object`	设置基于路径的爬取页面限制，例如，`{"*":1}` 仅用于根页面。
locale	`string`	请求的区域设置，例如 `en-US`。
cookies	`string`	请求的HTTP cookies。
stealth	`bool`	启用Chrome请求的隐身模式以避免被检测。默认值为`true`。
headers	`object`	HTTP 头信息，作为所有请求的键值对映射。
metadata	`bool`	存储有关页面和内容的元数据，帮助AI互操作性。默认为 `false`。
viewport	`object`	设置Chrome视口尺寸。默认值为`800x600`。
encoding	`string`	指定编码类型，例如 `UTF-8`, `SHIFT_JIS`。
subdomains	`bool`	在爬取中包含子域名。默认值为 `false`。
user_agent	`string`	自定义HTTP用户代理。默认为随机代理。
store_data	`bool`	启用请求的数据存储。设置时会覆盖`storageless`。默认值为`false`。
gpt_config	`object`	允许AI生成爬取操作，并通过数组为`"prompt"`提供可选的链式步骤。
fingerprint	`bool`	启用Chrome的高级指纹识别功能。
storageless	`bool`	阻止所有数据存储，包括AI嵌入。默认值为`false`。
readability	`bool`	通过Mozilla’s readability预处理内容以提高可读性。改进LLMs的内容。
return_format	`string`	返回数据的格式：`markdown`, `raw`, `text`, `html2text`。使用`raw`作为默认页面格式。
proxy_enabled	`bool`	启用高性能代理以避免网络级别的阻塞。
query_selector	`string`	用于从标记中提取内容的CSS查询选择器。
full_resources	`bool`	下载与网站链接的所有资源。
request_timeout	`int`	请求的超时时间（秒），范围为5-60。默认值为`30`。
run_in_background	`bool`	在后台运行请求，适用于数据存储和触发仪表板爬取。如果设置了`storageless`则无效。

开始使用

核心概念

操作指南

工具

遥测

蜘蛛抓取器

`SpiderTool`

描述

安装

示例

参数

开始使用

核心概念

操作指南

工具

遥测

​SpiderTool

​描述

​安装

​示例

​参数

`SpiderTool`

描述

安装

示例

参数