Telnet 控制台

Scrapy 自带一个内置的 telnet 控制台,用于检查和控制正在运行的 Scrapy 进程。telnet 控制台只是一个在 Scrapy 进程中运行的常规 python shell,因此您几乎可以从中执行任何操作。

telnet控制台是一个内置的Scrapy扩展,默认情况下是启用的,但如果你愿意,也可以禁用它。有关扩展本身的更多信息,请参阅Telnet控制台扩展

警告

通过公共网络使用telnet控制台是不安全的,因为telnet不提供任何传输层安全性。拥有用户名/密码认证并不能改变这一点。

预期用途是连接到本地运行的Scrapy爬虫(爬虫进程和telnet客户端在同一台机器上)或通过安全连接(VPN、SSH隧道)。请避免在不安全的连接上使用telnet控制台,或使用TELNETCONSOLE_ENABLED选项完全禁用它。

如何访问telnet控制台

telnet控制台监听在TCP端口上,该端口在TELNETCONSOLE_PORT设置中定义,默认值为6023。要访问控制台,您需要输入:

telnet localhost 6023
Trying localhost...
Connected to localhost.
Escape character is '^]'.
Username:
Password:
>>>

默认情况下,用户名是 scrapy,密码是自动生成的。自动生成的密码可以在Scrapy日志中看到,如下例所示:

2018-10-16 14:35:21 [scrapy.extensions.telnet] INFO: Telnet Password: 16f92501e8a59326

默认的用户名和密码可以通过设置 TELNETCONSOLE_USERNAMETELNETCONSOLE_PASSWORD 来覆盖。

警告

用户名和密码仅提供有限的保护,因为telnet没有使用安全传输 - 默认情况下,即使设置了用户名和密码,流量也不会加密。

你需要telnet程序,它在Windows和大多数Linux发行版中默认安装。

Telnet 控制台中的可用变量

telnet控制台就像在Scrapy进程中运行的常规Python shell,因此您可以在其中执行任何操作,包括导入新模块等。

然而,telnet 控制台为了方便起见,预定义了一些默认变量:

快捷方式

描述

crawler

Scrapy 爬虫 (scrapy.crawler.Crawler 对象)

engine

爬虫引擎属性

spider

活跃的爬虫

slot

引擎插槽

extensions

扩展管理器(Crawler.extensions 属性)

stats

统计收集器(Crawler.stats 属性)

settings

Scrapy 设置对象(Crawler.settings 属性)

est

打印引擎状态的报告

prefs

用于内存调试(参见 调试内存泄漏

p

一个快捷方式到 pprint.pprint() 函数

hpy

用于内存调试(参见 调试内存泄漏

Telnet 控制台使用示例

以下是一些您可以使用telnet控制台执行的示例任务:

查看引擎状态

你可以使用Scrapy引擎的est()方法通过telnet控制台快速显示其状态:

telnet localhost 6023
>>> est()
Execution engine status

time()-engine.start_time                        : 8.62972998619
len(engine.downloader.active)                   : 16
engine.scraper.is_idle()                        : False
engine.spider.name                              : followall
engine.spider_is_idle()                         : False
engine.slot.closing                             : False
len(engine.slot.inprogress)                     : 16
len(engine.slot.scheduler.dqs or [])            : 0
len(engine.slot.scheduler.mqs)                  : 92
len(engine.scraper.slot.queue)                  : 0
len(engine.scraper.slot.active)                 : 0
engine.scraper.slot.active_size                 : 0
engine.scraper.slot.itemproc_size               : 0
engine.scraper.slot.needs_backout()             : False

暂停、恢复和停止Scrapy引擎

暂停:

telnet localhost 6023
>>> engine.pause()
>>>

总结:

telnet localhost 6023
>>> engine.unpause()
>>>

停止:

telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.

Telnet 控制台信号

scrapy.extensions.telnet.update_telnet_vars(telnet_vars)

在telnet控制台打开之前发送。你可以连接到这个信号来添加、删除或更新将在telnet本地命名空间中可用的变量。为了做到这一点,你需要在你的处理程序中更新telnet_vars字典。

Parameters:

telnet_vars (dict) – telnet变量的字典

Telnet设置

这些是控制telnet控制台行为的设置:

TELNETCONSOLE_PORT

默认值:[6023, 6073]

用于telnet控制台的端口范围。如果设置为None,则使用动态分配的端口。

TELNETCONSOLE_HOST

默认值:'127.0.0.1'

telnet控制台应该监听的接口

TELNETCONSOLE_USERNAME

默认值:'scrapy'

用于telnet控制台的用户名

TELNETCONSOLE_PASSWORD

默认值:None

用于telnet控制台的密码,默认行为是自动生成