跳转到主要内容

Scrapy扩展,用于在存储服务中存储信息

项目描述

PyPI Version Python Versions Build Status Coverage report

一个Scrapy扩展,用于在存储服务中存储请求和响应信息。

安装

您可以使用pip安装scrapy-pagestorage

pip install scrapy-pagestorage

然后您可以在您的settings.py中启用中间件

SPIDER_MIDDLEWARES = {
    ...
    'scrapy_pagestorage.PageStorageMiddleware': 900
}

如何使用它

通过settings.py启用扩展

PAGE_STORAGE_ENABLED = True
PAGE_STORAGE_ON_ERROR_ENABLED = True

通过settings.py配置扩展

PAGE_STORAGE_MODE = "VERSIONED_CACHE"
PAGE_STORAGE_LIMIT = 100
PAGE_STORAGE_ON_ERROR_LIMIT = 100
PAGE_STORAGE_TRIM_HTML = True

对于Portia蜘蛛(SHUB_SPIDER_TYPE=portia),扩展会自动启用

设置

PAGE_STORAGE_MODE

默认值: None

一个字符串,指定扩展是否使用缓存存储或版本化缓存存储来存储信息(将PAGE_STORAGE_MODE="VERSIONED_CACHE"设置为使用版本化的)。

PAGE_STORAGE_LIMIT

一个整数,用于设置存储已访问页面数量的限制。

PAGE_STORAGE_ON_ERROR_LIMIT

一个整数,用于设置存储页面错误数量的限制。

PAGE_STORAGE_TRIM_HTML

默认: False

从HTML的开始和结尾删除空白字符以减小文件大小。

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分发

scrapy-pagestorage-0.4.0.tar.gz (4.7 kB 查看哈希值)

上传时间 源代码

构建分发

scrapy_pagestorage-0.4.0-py2.py3-none-any.whl (4.9 kB 查看哈希值)

上传时间 Python 2 Python 3

支持