Scrapy扩展,用于在存储服务中存储信息
项目描述
一个Scrapy扩展,用于在存储服务中存储请求和响应信息。
安装
您可以使用pip安装scrapy-pagestorage
pip install scrapy-pagestorage
然后您可以在您的settings.py中启用中间件
SPIDER_MIDDLEWARES = { ... 'scrapy_pagestorage.PageStorageMiddleware': 900 }
如何使用它
通过settings.py启用扩展
PAGE_STORAGE_ENABLED = True PAGE_STORAGE_ON_ERROR_ENABLED = True
通过settings.py配置扩展
PAGE_STORAGE_MODE = "VERSIONED_CACHE" PAGE_STORAGE_LIMIT = 100 PAGE_STORAGE_ON_ERROR_LIMIT = 100 PAGE_STORAGE_TRIM_HTML = True
对于Portia蜘蛛(SHUB_SPIDER_TYPE=portia),扩展会自动启用
设置
PAGE_STORAGE_MODE
默认值: None
一个字符串,指定扩展是否使用缓存存储或版本化缓存存储来存储信息(将PAGE_STORAGE_MODE="VERSIONED_CACHE"设置为使用版本化的)。
PAGE_STORAGE_LIMIT
一个整数,用于设置存储已访问页面数量的限制。
PAGE_STORAGE_ON_ERROR_LIMIT
一个整数,用于设置存储页面错误数量的限制。
PAGE_STORAGE_TRIM_HTML
默认: False
从HTML的开始和结尾删除空白字符以减小文件大小。
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源代码分发
scrapy-pagestorage-0.4.0.tar.gz (4.7 kB 查看哈希值)
构建分发
关闭
scrapy-pagestorage-0.4.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 344b906ddc2e5ec1dcddbaf202c00534a0d17b58d66343dda41b0a171554ba78 |
|
MD5 | 11f1a6fe477c08039300def795fe3fdd |
|
BLAKE2b-256 | d4a1bb6d774bdd5d5eb911deb2ed33fa29dd4dad4ae3efdab8991dfe6eaf0d14 |
关闭
scrapy_pagestorage-0.4.0-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3e5d1472bbc4623ee8c985b6968ede64c03dd18b15abad08c0a146cd00947c73 |
|
MD5 | d7483559011ab6fb4e1c7734ed728107 |
|
BLAKE2b-256 | 93236abe5290e9451234c14accfd1086453a591178f00197e03cf07afd1c3fb3 |