跳转到主要内容

Scrapy的Page Object模式

项目描述

PyPI Version Supported Python Versions Build Status Coverage report Documentation Status

scrapy-poet 是 Scrapy 的 web-poet 页面对象模式实现。 scrapy-poet 允许编写将提取逻辑与爬取逻辑分离的蜘蛛。使用 scrapy-poet 可以创建支持多个站点且布局不同的单个蜘蛛。

阅读文档获取更多信息。

许可证是BSD 3条款。

快速开始

安装

pip install scrapy-poet

需要 Python 3.8+ 和 Scrapy >= 2.6.0。

在 Scrapy 项目中使用

在 Scrapy 的 settings.py 文件中添加以下内容

DOWNLOADER_MIDDLEWARES = {
    "scrapy_poet.InjectionMiddleware": 543,
    "scrapy.downloadermiddlewares.stats.DownloaderStats": None,
    "scrapy_poet.DownloaderStatsMiddleware": 850,
}
SPIDER_MIDDLEWARES = {
    "scrapy_poet.RetryMiddleware": 275,
}
REQUEST_FINGERPRINTER_CLASS = "scrapy_poet.ScrapyPoetRequestFingerprinter"

开发

通过以下命令设置本地 Python 环境

  1. pip install -r requirements-dev.txt

  2. pre-commit install

现在每次你执行一个 git commit,这些工具都会在暂存文件上运行

  • black

  • isort

  • flake8

你也可以直接调用 pre-commit run –all-filestox -e linters 来运行它们,而不需要执行提交。

项目详情


下载文件

下载您平台的文件。如果您不确定选择哪一个,请了解更多关于 安装包 的信息。

源代码分发

scrapy_poet-0.23.0.tar.gz (59.6 kB 查看哈希值)

上传时间 源代码

构建分发

scrapy_poet-0.23.0-py3-none-any.whl (30.1 kB 查看哈希值)

上传时间 Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面