Scrapy的Page Object模式
项目描述
scrapy-poet 是 Scrapy 的 web-poet 页面对象模式实现。 scrapy-poet 允许编写将提取逻辑与爬取逻辑分离的蜘蛛。使用 scrapy-poet 可以创建支持多个站点且布局不同的单个蜘蛛。
阅读文档获取更多信息。
许可证是BSD 3条款。
快速开始
安装
pip install scrapy-poet
需要 Python 3.8+ 和 Scrapy >= 2.6.0。
在 Scrapy 项目中使用
在 Scrapy 的 settings.py 文件中添加以下内容
DOWNLOADER_MIDDLEWARES = {
"scrapy_poet.InjectionMiddleware": 543,
"scrapy.downloadermiddlewares.stats.DownloaderStats": None,
"scrapy_poet.DownloaderStatsMiddleware": 850,
}
SPIDER_MIDDLEWARES = {
"scrapy_poet.RetryMiddleware": 275,
}
REQUEST_FINGERPRINTER_CLASS = "scrapy_poet.ScrapyPoetRequestFingerprinter"
开发
通过以下命令设置本地 Python 环境
pip install -r requirements-dev.txt
pre-commit install
现在每次你执行一个 git commit,这些工具都会在暂存文件上运行
black
isort
flake8
你也可以直接调用 pre-commit run –all-files 或 tox -e linters 来运行它们,而不需要执行提交。
项目详情
下载文件
下载您平台的文件。如果您不确定选择哪一个,请了解更多关于 安装包 的信息。
源代码分发
scrapy_poet-0.23.0.tar.gz (59.6 kB 查看哈希值)
构建分发
scrapy_poet-0.23.0-py3-none-any.whl (30.1 kB 查看哈希值)
关闭
scrapy_poet-0.23.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | d650d62edf453afa57273f4c294262d33467a11cce7fe9a3db05388cf7dca007 |
|
MD5 | 9394df0c0a9415d4f76e2a475d219e24 |
|
BLAKE2b-256 | 024e708228d66b2fdf01fce617e736165593dfc61bb06459015bb1797d464910 |
关闭
scrapy_poet-0.23.0-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | ff6a1f62a25cf2b7545778e75b7dada8b8e2b4895607a2aefc835d8111fcc680 |
|
MD5 | c2f9d1d34a0a86f45e9e566a92bd75b4 |
|
BLAKE2b-256 | 3b17a6e9bbdf367e4d865dcf54377bd00a5eff5555ec87f4472485e11aa4dd1f |