使用匹配器限制爬取和抓取范围。
项目描述
我如何从过去五天内从网站抓取项目?
—Scrapy 用户
这个问题引发了 scrapy-mosquitera 的发展,这是一个帮助您使用 匹配器 限制爬取和抓取范围的工具。
匹配器是简单的Python函数,根据某些限制返回元素的合法性。
项目的首要目标是日期匹配,但您可以创建自己的匹配器来满足您自己的爬取和抓取需求。
工作原理
在URL中存在日期的情况下,您只需直接在代码中使用匹配器函数即可。
from scrapy_mosquitera.matchers import date_matches date = scrape_date_from_url(url) if date_matches(data=date, after='5 days ago'): yield Request(url=url, callback=self.parse_item)
为了处理在抓取项目时只有日期可用的情况,scrapy-mosquitera 提供了一个 PaginationMixin 来根据抓取的日期控制爬取。
有关更多详细信息,请参阅文档的其余部分。
安装
快速方式
pip install scrapy-mosquitera
项目详情
关闭
scrapy-mosquitera-0.1.1.tar.gz的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2ba3752240999a9111851b0cd0e4d31e3f073cbd241bd7afcc64db420d0b62b7 |
|
MD5 | e7d52f82e90ad06f0b882db4c1d9db1a |
|
BLAKE2b-256 | 0b6d4edc4532bc7181299cbee894b460d44b0b26d57ce09fce637077683735ad |
关闭
scrapy_mosquitera-0.1.1-py2.py3-none-any.whl的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 92472f527dfb33efcc6733641de622c0537b71ee89a14111fb651c8f6c4d2a70 |
|
MD5 | d8201af7533690b9db7bb70ceb3b1e8f |
|
BLAKE2b-256 | b079d188e5de92c8699480fa464867982c50d0728408e54be275c14524a1aec3 |