scrapy-querycleaner · PyPI · Python 包索引

Scrapy爬虫中间件，用于清理请求URL中的查询参数

这些详情尚未由PyPI验证

项目链接

首页

项目描述

https://travis-ci.org/scrapy-plugins/scrapy-querycleaner.svg?branch=master

https://codecov.io/gh/scrapy-plugins/scrapy-querycleaner/branch/master/graph/badge.svg

这是一个Scrapy爬虫中间件，用于根据用户提供的模式清理爬虫输出请求URL中的查询参数。

安装

使用pip安装scrapy-querycleaner

$ pip install scrapy-querycleaner

配置

在您的settings.py文件中包含QueryCleanerMiddleware以添加SPIDER_MIDDLEWARES
```
SPIDER_MIDDLEWARES = {
    'scrapy_querycleaner.QueryCleanerMiddleware': 100,
}
```
这里，优先级100只是一个示例。根据您已启用的其他中间件设置其值。
通过在 setting.py 中使用 QUERYCLEANER_REMOVE 或 QUERYCLEANER_KEEP (或两者同时使用) 来启用中间件。

用法

为了启用中间件，以下设置中至少需要存在一个。

支持的设置

QUERYCLEANER_REMOVE: 一个必须匹配查询参数名的模式（正则表达式），以便将其从 URL 中删除。（其他所有参数将被接受。）
QUERYCLEANER_KEEP: 一个必须匹配查询参数名的模式，以便将其保留在 URL 中。（其他所有参数将被删除。）

如果某些查询参数模式应该保留，而某些应该删除，则可以同时使用这两个设置。

删除模式具有比保留模式更高的优先级。

示例

假设蜘蛛提取的 URL 如下所示

http://www.example.com/product.php?pid=135&cid=12&ttda=12

我们只想留下参数 pid。

为了实现这个目标，我们可以使用 QUERYCLEANER_REMOVE 或 QUERYCLEANER_KEEP

在第一种情况下，模式将是 cid|ttda
```
QUERYCLEANER_REMOVE = 'cid|ttda'
```
在第二种情况下，pid
```
QUERYCLEANER_KEEP = 'pid'
```

最佳解决方案取决于特定情况，即查询过滤器将如何影响蜘蛛预期提取的任何其他 URL。

项目详情

这些详情尚未由PyPI验证

项目链接

首页

发布历史发布通知 | RSS 源

此版本

1.0.0

2016 年 6 月 30 日

0.1.0

2016 年 6 月 30 日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分布

scrapy-querycleaner-1.0.0.tar.gz (3.2 kB 查看散列)

上传时间 2016 年 6 月 30 日 源

构建分布

scrapy_querycleaner-1.0.0-py2.py3-none-any.whl (3.8 kB 查看散列)

上传时间 2016 年 6 月 30 日 Python 2 Python 3

散列 for scrapy-querycleaner-1.0.0.tar.gz

散列 for scrapy-querycleaner-1.0.0.tar.gz
算法	散列摘要
SHA256	`3f3fdc7558076e7a0dfdadb803d42661c372b75f05c436a7a721e28d16ec5d5a`
MD5	`e38bc7780bb86d577ebdb5f3676a9919`
BLAKE2b-256	`1915ede0e13684f7eb1d685e3428c78899408ffb72f4a63c613240feddbbb8af`

散列 for scrapy_querycleaner-1.0.0-py2.py3-none-any.whl

散列 for scrapy_querycleaner-1.0.0-py2.py3-none-any.whl
算法	散列摘要
SHA256	`a40002384a277db89797fcf6c029bec46b05642c1e646f1476385b803745b333`
MD5	`156fa3f1a03f8c64a1dad77c345e2778`
BLAKE2b-256	`802aa3d6b7779dff0932017fcbfdad4b67b710160e524ac2914103ee963dee71`

scrapy-querycleaner 1.0.0

导航

验证详情

维护者

未经验证的详情

项目链接

Meta

分类器

项目描述

安装

配置

用法

支持的设置

示例

项目详情

验证详情

维护者

未经验证的详情

项目链接

Meta

分类器

发布历史发布通知 | RSS 源

下载文件

源分布

构建分布

scrapy-querycleaner 1.0.0

导航

验证详情

维护者

未经验证的详情

项目链接

Meta

分类器

项目描述

安装

配置

用法

支持的设置

示例

项目详情

验证详情

维护者

未经验证的详情

项目链接

Meta

分类器

发布历史 发布通知 | RSS 源

下载文件

源分布

构建分布

发布历史发布通知 | RSS 源