扩展¶
扩展框架提供了一种机制,可以将您自己的自定义功能插入到Scrapy中。
扩展只是普通的类。
扩展设置¶
扩展使用Scrapy设置来管理它们的设置,就像任何其他Scrapy代码一样。
通常,扩展会使用自己的名称作为设置的前缀,以避免与现有(和未来)的扩展发生冲突。例如,一个假设的用于处理Google Sitemaps的扩展会使用像GOOGLESITEMAP_ENABLED、GOOGLESITEMAP_DEPTH等设置。
加载和激活扩展¶
扩展在启动时通过为每个运行的蜘蛛实例化一个扩展类的单个实例来加载和激活。所有扩展初始化代码必须在类的 __init__ 方法中执行。
要使扩展可用,请将其添加到您的Scrapy设置中的EXTENSIONS设置中。在EXTENSIONS中,每个扩展由一个字符串表示:扩展类名的完整Python路径。例如:
EXTENSIONS = {
"scrapy.extensions.corestats.CoreStats": 500,
"scrapy.extensions.telnet.TelnetConsole": 500,
}
如你所见,EXTENSIONS 设置是一个字典,其中键是扩展路径,它们的值是顺序,这些顺序定义了扩展的加载顺序。EXTENSIONS 设置与 Scrapy 中定义的 EXTENSIONS_BASE 设置(不应被覆盖)合并,然后按顺序排序以获得最终启用的扩展列表。
由于扩展通常不相互依赖,因此在大多数情况下,它们的加载顺序是无关紧要的。这就是为什么EXTENSIONS_BASE设置
定义了所有扩展的相同顺序(0)。然而,如果您需要添加一个依赖于已加载的其他扩展的扩展,可以利用此功能。
可用、启用和禁用的扩展¶
并非所有可用的扩展都会被启用。其中一些通常依赖于特定的设置。例如,HTTP缓存扩展默认是可用的,但除非设置了HTTPCACHE_ENABLED设置,否则它是禁用的。
禁用扩展¶
为了禁用一个默认启用的扩展(即包含在EXTENSIONS_BASE设置中的扩展),你必须将其顺序设置为None。例如:
EXTENSIONS = {
"scrapy.extensions.corestats.CoreStats": None,
}
编写你自己的扩展¶
每个扩展都是一个Python类。Scrapy扩展的主要入口点(这也包括中间件和管道)是from_crawler类方法,它接收一个Crawler实例。通过Crawler对象,您可以访问设置、信号、统计信息,还可以控制爬取行为。
通常,扩展会连接到signals并执行由它们触发的任务。
最后,如果from_crawler方法抛出
NotConfigured异常,扩展将被
禁用。否则,扩展将被启用。
示例扩展¶
在这里,我们将实现一个简单的扩展来说明前一节中描述的概念。这个扩展将在每次时记录一条消息:
一个蜘蛛被打开了
一个爬虫已关闭
抓取特定数量的项目
扩展将通过MYEXT_ENABLED设置启用,并且项目数量将通过MYEXT_ITEMCOUNT设置指定。
以下是此类扩展的代码:
import logging
from scrapy import signals
from scrapy.exceptions import NotConfigured
logger = logging.getLogger(__name__)
class SpiderOpenCloseLogging:
def __init__(self, item_count):
self.item_count = item_count
self.items_scraped = 0
@classmethod
def from_crawler(cls, crawler):
# first check if the extension should be enabled and raise
# NotConfigured otherwise
if not crawler.settings.getbool("MYEXT_ENABLED"):
raise NotConfigured
# get the number of items from settings
item_count = crawler.settings.getint("MYEXT_ITEMCOUNT", 1000)
# instantiate the extension object
ext = cls(item_count)
# connect the extension object to signals
crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
crawler.signals.connect(ext.item_scraped, signal=signals.item_scraped)
# return the extension object
return ext
def spider_opened(self, spider):
logger.info("opened spider %s", spider.name)
def spider_closed(self, spider):
logger.info("closed spider %s", spider.name)
def item_scraped(self, item, spider):
self.items_scraped += 1
if self.items_scraped % self.item_count == 0:
logger.info("scraped %d items", self.items_scraped)
内置扩展参考¶
通用扩展¶
日志统计扩展¶
记录基本统计信息,如爬取的页面和抓取的项目。
核心统计扩展¶
启用核心统计数据的收集,前提是统计收集功能已启用(参见统计收集)。
Telnet控制台扩展¶
提供一个telnet控制台,用于进入当前运行的Scrapy进程中的Python解释器,这对于调试非常有用。
必须通过TELNETCONSOLE_ENABLED设置启用telnet控制台,服务器将在TELNETCONSOLE_PORT中指定的端口上监听。
内存使用扩展¶
注意
此扩展在Windows上无法使用。
监控运行蜘蛛的Scrapy进程使用的内存,并:
当超过某个值时发送通知电子邮件
当蜘蛛超过某个值时关闭它
当达到某个警告值时(MEMUSAGE_WARNING_MB),以及达到最大值时(MEMUSAGE_LIMIT_MB),可以触发通知电子邮件,这也会导致蜘蛛关闭并终止Scrapy进程。
此扩展由MEMUSAGE_ENABLED设置启用,并且可以通过以下设置进行配置:
内存调试器扩展¶
一个用于调试内存使用的扩展。它收集以下信息:
未被Python垃圾收集器收集的对象
不应该存活的objects仍然存活。更多信息,请参见使用trackref调试内存泄漏
要启用此扩展,请打开MEMDEBUG_ENABLED设置。信息将存储在统计信息中。
蜘蛛状态扩展¶
通过在爬取前加载并在爬取后保存来管理爬虫状态数据。
为JOBDIR设置赋值以启用此扩展。
启用后,此扩展管理您的state
属性,该属性属于您的Spider实例:
当你的爬虫关闭时(
spider_closed),它的state属性的内容会被序列化到一个名为spider.state的文件中,该文件位于JOBDIR文件夹中。当你的爬虫启动时(
spider_opened),如果在JOBDIR文件夹中存在之前生成的spider.state文件,它将被加载到state属性中。
例如,请参见在批次之间保持持久状态。
关闭爬虫扩展¶
当满足某些条件时,自动关闭一个爬虫,并为每个条件使用特定的关闭原因。
关闭蜘蛛的条件可以通过以下设置进行配置:
注意
当满足某个关闭条件时,当前在下载器队列中的请求(最多为CONCURRENT_REQUESTS个请求)仍会被处理。
CLOSESPIDER_TIMEOUT¶
默认值:0
一个整数,指定秒数。如果爬虫保持打开的时间超过该秒数,它将被自动关闭,原因是 closespider_timeout。如果为零(或未设置),爬虫将不会因超时而关闭。
CLOSESPIDER_TIMEOUT_NO_ITEM¶
默认值:0
一个整数,指定秒数。如果蜘蛛在过去的指定秒数内没有产生任何项目,它将被关闭,原因是closespider_timeout_no_item。如果为零(或未设置),无论是否产生任何项目,蜘蛛都不会被关闭。
CLOSESPIDER_ITEMCOUNT¶
默认值:0
一个整数,用于指定项目的数量。如果爬虫抓取的项目数量超过该数量,并且这些项目通过了项目管道,爬虫将因closespider_itemcount的原因而关闭。如果为零(或未设置),爬虫不会因通过的项目数量而关闭。
CLOSESPIDER_PAGECOUNT¶
默认值:0
一个整数,指定要爬取的最大响应数。如果蜘蛛爬取的响应数超过该值,蜘蛛将因closespider_pagecount的原因而关闭。如果为零(或未设置),蜘蛛不会因爬取的响应数而关闭。
CLOSESPIDER_PAGECOUNT_NO_ITEM¶
默认值:0
一个整数,指定在没有抓取到项目的情况下连续爬取的最大响应次数。如果蜘蛛爬取的连续响应次数超过此值,并且在此期间没有抓取到任何项目,蜘蛛将因closespider_pagecount_no_item的原因而关闭。如果为零(或未设置),蜘蛛不会因为没有抓取到项目的爬取响应次数而关闭。
CLOSESPIDER_ERRORCOUNT¶
默认值:0
一个整数,指定在关闭蜘蛛之前接收的最大错误数。如果蜘蛛生成的错误超过该数量,它将以closespider_errorcount的原因关闭。如果为零(或未设置),蜘蛛不会因错误数量而关闭。
StatsMailer 扩展¶
这个简单的扩展可以用于每次域名完成抓取时发送通知电子邮件,包括收集的Scrapy统计信息。电子邮件将发送给在STATSMAILER_RCPTS设置中指定的所有收件人。
可以使用MailSender类发送电子邮件。要查看包括如何实例化MailSender和使用邮件设置的完整参数列表,请参阅发送电子邮件。
周期性日志扩展¶
此扩展定期将丰富的统计数据记录为JSON对象:
2023-08-04 02:30:57 [scrapy.extensions.logstats] INFO: Crawled 976 pages (at 162 pages/min), scraped 925 items (at 161 items/min)
2023-08-04 02:30:57 [scrapy.extensions.periodic_log] INFO: {
"delta": {
"downloader/request_bytes": 55582,
"downloader/request_count": 162,
"downloader/request_method_count/GET": 162,
"downloader/response_bytes": 618133,
"downloader/response_count": 162,
"downloader/response_status_count/200": 162,
"item_scraped_count": 161
},
"stats": {
"downloader/request_bytes": 338243,
"downloader/request_count": 992,
"downloader/request_method_count/GET": 992,
"downloader/response_bytes": 3836736,
"downloader/response_count": 976,
"downloader/response_status_count/200": 976,
"item_scraped_count": 925,
"log_count/INFO": 21,
"log_count/WARNING": 1,
"scheduler/dequeued": 992,
"scheduler/dequeued/memory": 992,
"scheduler/enqueued": 1050,
"scheduler/enqueued/memory": 1050
},
"time": {
"elapsed": 360.008903,
"log_interval": 60.0,
"log_interval_real": 60.006694,
"start_time": "2023-08-03 23:24:57",
"utcnow": "2023-08-03 23:30:57"
}
}
此扩展记录以下可配置部分:
"delta"显示自上次统计日志消息以来,某些数值统计的变化情况。PERIODIC_LOG_DELTA设置决定了目标统计信息。它们必须具有int或float值。"stats"显示了一些统计数据的当前值。PERIODIC_LOG_STATS设置决定了目标统计信息。"time"显示详细的计时数据。PERIODIC_LOG_TIMING_ENABLED设置决定了是否显示此部分。
此扩展在开始时记录数据,然后通过LOGSTATS_INTERVAL设置的可配置固定时间间隔记录数据,最后在爬取结束前记录数据。
示例扩展配置:
custom_settings = {
"LOG_LEVEL": "INFO",
"PERIODIC_LOG_STATS": {
"include": ["downloader/", "scheduler/", "log_count/", "item_scraped_count/"],
},
"PERIODIC_LOG_DELTA": {"include": ["downloader/"]},
"PERIODIC_LOG_TIMING_ENABLED": True,
"EXTENSIONS": {
"scrapy.extensions.periodic_log.PeriodicLog": 0,
},
}
周期性日志差异¶
默认值:None
"PERIODIC_LOG_DELTA": True- 显示所有int和float统计值的增量。"PERIODIC_LOG_DELTA": {"include": ["downloader/", "scheduler/"]}- 显示包含任何配置子字符串的统计信息的增量。"PERIODIC_LOG_DELTA": {"exclude": ["downloader/"]}- 显示所有不包含任何配置子字符串的统计信息的增量。
周期性日志统计¶
默认值:None
"PERIODIC_LOG_STATS": True- 显示所有统计的当前值。"PERIODIC_LOG_STATS": {"include": ["downloader/", "scheduler/"]}- 显示包含任何配置子字符串的统计名称的当前值。"PERIODIC_LOG_STATS": {"exclude": ["downloader/"]}- 显示所有不包含任何配置子字符串的统计名称的当前值。
周期性日志计时启用¶
默认值:False
True 启用计时数据的日志记录(即 "time" 部分)。
调试扩展¶
堆栈跟踪转储扩展¶
- class scrapy.extensions.periodic_log.StackTraceDump¶
当接收到SIGQUIT或SIGUSR2信号时,转储有关正在运行的进程的信息。转储的信息如下:
引擎状态(使用
scrapy.utils.engine.get_engine_status())实时引用(参见 使用 trackref 调试内存泄漏)
所有线程的堆栈跟踪
在堆栈跟踪和引擎状态被转储后,Scrapy 进程继续正常运行。
此扩展仅适用于符合POSIX标准的平台(即不适用于Windows),因为在Windows上无法使用SIGQUIT和SIGUSR2信号。
至少有两种方法可以向Scrapy发送SIGQUIT信号:
在Scrapy进程运行时按下Ctrl键(仅限Linux?)
通过运行此命令(假设
是Scrapy进程的进程ID):kill -QUIT <pid>
调试器扩展¶
- class scrapy.extensions.periodic_log.Debugger¶
当接收到SIGUSR2信号时,在运行的Scrapy进程中调用Python调试器。调试器退出后,Scrapy进程继续正常运行。
此扩展仅适用于符合POSIX标准的平台(即不适用于Windows)。