一个下载中间件,用于存储当前请求链,以便在另一时间进行爬取。
项目描述
scrapy-time-machine
使用之前爬取的请求链运行您的蜘蛛。
安装
pip install scrapy-time-machine
为什么?
假设您的蜘蛛每天爬取一些页面,一段时间后您发现添加了重要信息,您想开始保存这些信息。
您可能需要修改蜘蛛并从现在开始提取这些信息,但如果您想获取数据的初始值,即首次在网站上引入时,该怎么办呢?
使用此扩展,您可以在每次运行时保存网站的快照,以供将来使用(只要您不更改请求链)。
启用
要启用此中间件,请将以下信息添加到项目的 settings.py
DOWNLOADER_MIDDLEWARES = {
"scrapy_time_machine.timemachine.TimeMachineMiddleware": 901
}
TIME_MACHINE_ENABLED = True
TIME_MACHINE_STORAGE = "scrapy_time_machine.storages.DbmTimeMachineStorage"
使用
保存网站的当前状态快照
scrapy crawl sample -s TIME_MACHINE_SNAPSHOT=true -s TIME_MACHINE_URI="/tmp/%(name)s-%(time)s.db"
这将保存到 /tmp/sample-YYYY-MM-DDThh-mm-ss.db
从以前保存的网站状态中检索快照
scrapy crawl sample -s TIME_MACHINE_RETRIEVE=true -s TIME_MACHINE_URI=/tmp/sample-YYYY-MM-DDThh-mm-ss.db
如果蜘蛛在当前版本和生成快照的版本之间没有进行任何更改,提取的项目应该是相同的。
示例项目
在 examples 目录中提供了一个示例 Scrapy 项目。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源分发
scrapy-time-machine-1.1.1.tar.gz (6.0 kB 查看哈希值)
构建分发
关闭
scrapy-time-machine-1.1.1.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 72aabb16986c74abff8635a166e18f80f544f9fc0966b9e858ecc7afc8acfe4e |
|
MD5 | eddc8a7f3fa5fe6b1ce6028414658944 |
|
BLAKE2b-256 | 7355fec84d80b58cc35bf9ec17fe9bca83eeda7093fe4fce35c5f3967873573c |
关闭
scrapy_time_machine-1.1.1-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 199eea5eca5133e1978686689cb86b23a548a37feadca1bd1ccbbb861306c7bc |
|
MD5 | 57ee05ec6cc8e64d1b1af6f4b32b1048 |
|
BLAKE2b-256 | 931fcb2a210198495652aef03257d560c4d6ced6dd894d2447c5e4190415b44f |