scrapy-mosquitera · PyPI · Python 包索引

使用匹配器限制爬取和抓取范围。

这些详细信息尚未由PyPI验证

项目链接

主页

项目描述

https://travis-ci.org/scrapinghub/scrapy-mosquitera.svg?branch=master

https://img.shields.io/pypi/v/scrapy-mosquitera.svg?maxAge=2592000

https://img.shields.io/pypi/pyversions/scrapy-mosquitera.svg?maxAge=2592000

https://img.shields.io/pypi/l/scrapy-mosquitera.svg?maxAge=2592000

我如何从过去五天内从网站抓取项目？

—Scrapy 用户

这个问题引发了 scrapy-mosquitera 的发展，这是一个帮助您使用 匹配器 限制爬取和抓取范围的工具。

匹配器是简单的Python函数，根据某些限制返回元素的合法性。

项目的首要目标是日期匹配，但您可以创建自己的匹配器来满足您自己的爬取和抓取需求。

工作原理

在URL中存在日期的情况下，您只需直接在代码中使用匹配器函数即可。

from scrapy_mosquitera.matchers import date_matches

 date = scrape_date_from_url(url)

 if date_matches(data=date, after='5 days ago'):
    yield Request(url=url, callback=self.parse_item)

为了处理在抓取项目时只有日期可用的情况，scrapy-mosquitera 提供了一个 PaginationMixin 来根据抓取的日期控制爬取。

有关更多详细信息，请参阅文档的其余部分。

安装

快速方式

pip install scrapy-mosquitera

项目详情

这些详细信息尚未由PyPI验证

项目链接

主页

发布历史发布通知 | RSS订阅

本版本

0.1.1

2016年5月19日

0.1.0

2016年5月10日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解有关安装包的更多信息。

源代码分发

scrapy-mosquitera-0.1.1.tar.gz (18.4 kB 查看哈希)

上传时间 2016年5月19日 源代码

构建分发

scrapy_mosquitera-0.1.1-py2.py3-none-any.whl (8.7 kB 查看哈希)

上传时间 2016年5月19日 Python 2 Python 3

scrapy-mosquitera-0.1.1.tar.gz的哈希

scrapy-mosquitera-0.1.1.tar.gz的哈希
算法	哈希摘要
SHA256	`2ba3752240999a9111851b0cd0e4d31e3f073cbd241bd7afcc64db420d0b62b7`
MD5	`e7d52f82e90ad06f0b882db4c1d9db1a`
BLAKE2b-256	`0b6d4edc4532bc7181299cbee894b460d44b0b26d57ce09fce637077683735ad`

scrapy_mosquitera-0.1.1-py2.py3-none-any.whl的哈希

scrapy_mosquitera-0.1.1-py2.py3-none-any.whl的哈希
算法	哈希摘要
SHA256	`92472f527dfb33efcc6733641de622c0537b71ee89a14111fb651c8f6c4d2a70`
MD5	`d8201af7533690b9db7bb70ceb3b1e8f`
BLAKE2b-256	`b079d188e5de92c8699480fa464867982c50d0728408e54be275c14524a1aec3`

scrapy-mosquitera 0.1.1

导航

验证详细信息

维护者

未验证的详细信息

项目链接

元数据

分类器

项目描述

工作原理

安装

项目详情

验证详细信息

维护者

未验证的详细信息

项目链接

元数据

分类器

发布历史发布通知 | RSS订阅

下载文件

源代码分发

构建分发

scrapy-mosquitera 0.1.1

导航

验证详细信息

维护者

未验证的详细信息

项目链接

元数据

分类器

项目描述

工作原理

安装

项目详情

验证详细信息

维护者

未验证的详细信息

项目链接

元数据

分类器

发布历史 发布通知 | RSS订阅

下载文件

源代码分发

构建分发

发布历史发布通知 | RSS订阅