Scrapy的Pyppeteer集成

这些详细信息尚未由PyPI 验证

项目链接

主页

项目描述

Scrapy的Pyppeteer集成

此项目提供了一个Scrapy下载处理程序，该处理程序使用Pyppeteer执行请求。它可以用于处理需要JavaScript的页面。此包不会干扰Scrapy的正常工作流程，如请求调度或项目处理。

动机

在发布版本2.0之后，该版本包含部分协程语法支持和实验性的asyncio支持，Scrapy允许集成基于asyncio的项目，如Pyppeteer。

要求

Python 3.6+
Scrapy 2.0+
Pyppeteer 0.0.23+

安装

$ pip install scrapy-pyppeteer

配置

通过DOWNLOAD_HANDLERS替换默认的http和https下载处理程序

DOWNLOAD_HANDLERS = {
    "http": "scrapy_pyppeteer.handler.ScrapyPyppeteerDownloadHandler",
    "https": "scrapy_pyppeteer.handler.ScrapyPyppeteerDownloadHandler",
}

注意，ScrapyPyppeteerDownloadHandler类继承自默认的http/https处理程序，并且它将仅对明确标记的请求使用Pyppeteer（有关详细信息，请参阅“基本用法”部分）。

另外，请确保安装基于asyncio的Twisted反应器

TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"

scrapy-pyppeteer接受以下设置

PYPPETEER_LAUNCH_OPTIONS（类型 dict，默认 {}）

一个字典，包含在启动浏览器时要传递的选项。请参阅pyppeteer.launcher.launch的文档
PYPPETEER_NAVIGATION_TIMEOUT（类型 Optional[int]，默认 None）

Pyppeteer请求页面时使用的默认超时时间（以毫秒为单位）。如果设置为None或未设置，则使用默认值（写作本文时为30000毫秒）。有关详细信息，请参阅pyppeteer.page.Page.setDefaultNavigationTimeout文档。
PYPPETEER_PAGE_COROUTINE_TIMEOUT（类型 Optional[Union[int, float]]，默认 None）

使用页面协程（例如 waitForSelector 或 waitForXPath）时传递的默认超时时间（以毫秒为单位）。如果设置为None或未设置，则使用默认值（写作本文时为30000毫秒）。

基本用法

将pyppeteer的Request.meta键设置，以便使用Pyppeteer下载请求

import scrapy

class AwesomeSpider(scrapy.Spider):
    name = "awesome"

    def start_requests(self):
        # GET request
        yield scrapy.Request("https://httpbin.org/get", meta={"pyppeteer": True})
        # POST request
        yield scrapy.FormRequest(
            url="https://httpbin.org/post",
            formdata={"foo": "bar"},
            meta={"pyppeteer": True},
        )

    def parse(self, response):
        # 'response' contains the page as seen by the browser
        yield {"url": response.url}

页面协程

可以在pyppeteer_page_coroutines的Request.meta键中传递一个排序的可迭代对象（例如 list、tuple 或 dict），以便在返回最终 Response 到回调函数之前在 Page 上等待请求协程。

当您需要在页面上执行某些操作（如滚动或点击链接）并将所有操作视为单个Scrapy Response（包含最终结果）时，这很有用。

支持的操作

scrapy_pyppeteer.page.PageCoroutine(method: str, *args, **kwargs):

表示在pyppeteer.page.Page对象上等待的协程，例如 "click"、"screenshot"、"evaluate" 等。 method 应为协程的名称，*args 和 **kwargs 是传递给函数调用的参数。

协程结果将存储在 PageCoroutine.result 属性中

例如，
```
PageCoroutine("screenshot", options={"path": "quotes.png", "fullPage": True})
```
产生与以下相同的效果
```
# 'page' is a pyppeteer.page.Page object
await page.screenshot(options={"path": "quotes.png", "fullPage": True})
```
scrapy_pyppeteer.page.NavigationPageCoroutine(method: str, *args, **kwargs):

PageCoroutine的子类。它等待导航事件：当您知道协程将触发导航事件时使用此功能，例如在点击链接时。这将强制使用 Page.waitForNavigation() 调用，并使用 asyncio.gather 包装，正如在Pyppeteer文档中建议的那样。

例如，
```
NavigationPageCoroutine("click", selector="a")
```
产生与以下相同的效果
```
# 'page' is a pyppeteer.page.Page object
await asyncio.gather(
    page.waitForNavigation(),
    page.click(selector="a"),
)
```

在回调函数中接收Page对象

将pyppeteer.page.Page指定为回调参数的类型会导致相应的 Page 对象被注入到回调函数中。为了能够在提供的 Page 对象上等待协程，回调函数需要定义为协程函数（async def）。

import scrapy
import pyppeteer

class AwesomeSpiderWithPage(scrapy.Spider):
    name = "page"

    def start_requests(self):
        yield scrapy.Request("https://example.org", meta={"pyppeteer": True})

    async def parse(self, response, page: pyppeteer.page.Page):
        title = await page.title()  # "Example Domain"
        yield {"title": title}
        await page.close()

注意

为了避免内存问题，建议手动通过等待 Page.close 协程来关闭页面。
在 Page 对象上等待协程产生的任何网络操作（如 goto、goBack 等）将直接由Pyppeteer执行，绕过Scrapy请求工作流程（调度器、中间件等）。

示例

点击链接，将结果页面保存为PDF

import scrapy
from scrapy_pyppeteer.page import PageCoroutine, NavigationPageCoroutine

class ClickAndSavePdfSpider(scrapy.Spider):
    name = "pdf"

    def start_requests(self):
        yield scrapy.Request(
            url="https://example.org",
            meta=dict(
                pyppeteer=True,
                pyppeteer_page_coroutines={
                    "click": NavigationPageCoroutine("click", selector="a"),
                    "pdf": PageCoroutine("pdf", options={"path": "/tmp/file.pdf"}),
                },
            ),
        )

    def parse(self, response):
        pdf_bytes = response.meta["pyppeteer_page_coroutines"]["pdf"].result
        with open("iana.pdf", "wb") as fp:
            fp.write(pdf_bytes)
        yield {"url": response.url}  # response.url is "https://www.iana.org/domains/reserved"

在无限滚动页面上向下滚动，截取整个页面的屏幕截图

import scrapy
import pyppeteer
from scrapy_pyppeteer.page import PageCoroutine

class ScrollSpider(scrapy.Spider):
    name = "scroll"

    def start_requests(self):
        yield scrapy.Request(
            url="http://quotes.toscrape.com/scroll",
            meta=dict(
                pyppeteer=True,
                pyppeteer_page_coroutines=[
                    PageCoroutine("waitForSelector", "div.quote"),
                    PageCoroutine("evaluate", "window.scrollBy(0, document.body.scrollHeight)"),
                    PageCoroutine("waitForSelector", "div.quote:nth-child(11)"),  # 10 per page
                    PageCoroutine("screenshot", options={"path": "quotes.png", "fullPage": True}),
                ],
            ),
        )

    def parse(self, response):
        return {"quote_count": len(response.css("div.quote"))}

致谢

本项目灵感来源于

项目详情

这些详细信息尚未由PyPI 验证

项目链接

主页

发布历史发布通知 | RSS源

本版本

0.0.15

2021年2月26日

0.0.14

2020年12月2日

0.0.12

2020年11月25日

0.0.11

2020年11月16日

0.0.10

2020年5月20日

0.0.9

2020年5月1日

0.0.8

2020年4月30日

0.0.7

2020年4月25日

0.0.6

2020年4月22日

0.0.5

2020年4月22日

0.0.4

2020年4月21日

0.0.3

2020年4月21日

0.0.2

2020年4月20日

0.0.1

2020年4月20日

下载文件

下载适用于您平台的文件。如果您不确定选择哪一个，请了解更多关于安装软件包的信息。

源代码分发

scrapy-pyppeteer-0.0.15.tar.gz (10.6 kB 查看哈希值)

上传时间 2021年2月26日 源代码

构建版本

scrapy_pyppeteer-0.0.15-py3-none-any.whl (9.0 kB 查看哈希值)

上传时间 2021年2月26日 Python 3

哈希值 for scrapy-pyppeteer-0.0.15.tar.gz

scrapy-pyppeteer-0.0.15.tar.gz 的哈希值
算法	哈希摘要
SHA256	`f6e60672ab90ec3ba9395295282e93b50f46b282bb24da587c45a440e842b51d`
MD5	`7b4ad3284ded3000807947972875b6f6`
BLAKE2b-256	`245800459c083725d810582f19641c083394dc63125e09543591d6a34cf7edb9`

哈希值 for scrapy_pyppeteer-0.0.15-py3-none-any.whl

scrapy_pyppeteer-0.0.15-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`71b37251c8c2b68fdcb59d0f67c06bac6e368c405bf16bf09c313d944ba831b4`
MD5	`80639877ffef89dec6b8cc8479174b7f`
BLAKE2b-256	`6784e3165b6fb303547776cae9b9016d3b0e6d48b8a017ca635ac30301169de5`

scrapy-pyppeteer 0.0.15

导航

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

分类器

项目描述

Scrapy的Pyppeteer集成

动机

要求

安装

配置

基本用法

页面协程

支持的操作

在回调函数中接收Page对象

示例

致谢

项目详情

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源代码分发

构建版本

scrapy-pyppeteer 0.0.15

导航

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

分类器

项目描述

Scrapy的Pyppeteer集成

动机

要求

安装

配置

基本用法

页面协程

支持的操作

在回调函数中接收Page对象

示例

致谢

项目详情

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源代码分发

构建版本

发布历史发布通知 | RSS源