跳转到主要内容

Python的一个简约、递归网络爬虫库。

项目描述

一个多形态、瞬息万变且几乎无法忍受的精确世界的孤独而清晰的观众。

—— 记忆中的菲内斯,豪尔赫·路易斯·博尔赫斯

https://github.com/alephdata/memorious/workflows/memorious/badge.svg

memorious 是一个轻量级的网络爬虫工具包。它支持收集结构化或非结构化数据的爬虫。这包括以下用例

  • 使爬虫模块化并使简单任务可重复使用

  • 提供执行常见任务(如数据存储、HTTP会话管理)的实用函数

  • 将爬虫与 Aleph 和 FollowTheMoney 生态系统集成

  • 尽可能少地打扰你

设计

编写爬虫时,通常需要通过索引页进行分页,然后下载每个结果的HTML页面,最后解析该页面并在数据库中插入或更新一条记录。

memorious 通过管理一组 爬虫 来处理这个问题,每个爬虫可以由多个 阶段 组成。每个 阶段 都使用 Python 函数实现,可以在不同的 爬虫 中重复使用。

编写 Memorious 爬虫的基本步骤

  1. 创建 YAML 爬虫配置文件

  2. 添加不同的阶段

  3. 编写阶段操作代码(可选)

  4. 测试、清洗、重复

文档

Memorious 的文档可在 alephdata.github.io/memorious 查找。请随意编辑 docs 文件夹中的源文件,并通过发送改进的拉取请求。

要在 docs 文件夹中构建文档,请运行 make html

您将在 /docs/_build/html 中找到生成的 HTML 文件。

项目详情


发布历史 发布通知 | RSS 源

下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分发

memorious-2.6.5.tar.gz (41.0 kB 查看哈希值)

上传时间

构建分发

memorious-2.6.5-py2.py3-none-any.whl (52.4 kB 查看哈希值)

上传于 Python 2 Python 3

由以下支持