跳转到主要内容

未提供项目描述

项目描述

scrapelib 是一个用于向不可靠网站发送请求的库。

来源:https://github.com/jamesturk/scrapelib

文档:https://jamesturk.github.io/scrapelib/

问题:https://github.com/jamesturk/scrapelib/issues

PyPI badge Test badge

功能

scrapelib 是作为Open States项目的一部分而诞生的,该项目旨在抓取所有50个州立法机构的网站,因此它被设计成在处理具有间歇性错误或需要速率限制的网站时具有所需的功能。

使用scrapelib而不是直接使用requests的优点

  • 通过相同的API进行HTTP(S)和FTP请求
  • 支持简单的缓存,具有可插拔的缓存后端
  • 高度可配置的请求节流
  • 可配置的重试机制,用于非永久性站点故障
  • 拥有 requests 库的全部功能。

安装

scrapelibPyPI 上,可以通过任何标准包管理工具进行安装

poetry add scrapelib

pip install scrapelib

示例用法

  import scrapelib
  s = scrapelib.Scraper(requests_per_minute=10)

  # Grab Google front page
  s.get('http://google.com')

  # Will be throttled to 10 HTTP requests per minute
  while True:
      s.get('http://example.com')

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

scrapelib-2.3.0.tar.gz (15.3 kB 查看哈希)

上传时间

构建分布

scrapelib-2.3.0-py3-none-any.whl (17.0 kB 查看哈希)

上传时间 Python 3

由以下支持