Python的一个简约、递归网络爬虫库。
项目描述
一个多形态、瞬息万变且几乎无法忍受的精确世界的孤独而清晰的观众。
—— 记忆中的菲内斯,豪尔赫·路易斯·博尔赫斯
memorious 是一个轻量级的网络爬虫工具包。它支持收集结构化或非结构化数据的爬虫。这包括以下用例
使爬虫模块化并使简单任务可重复使用
提供执行常见任务(如数据存储、HTTP会话管理)的实用函数
将爬虫与 Aleph 和 FollowTheMoney 生态系统集成
尽可能少地打扰你
设计
编写爬虫时,通常需要通过索引页进行分页,然后下载每个结果的HTML页面,最后解析该页面并在数据库中插入或更新一条记录。
memorious 通过管理一组 爬虫 来处理这个问题,每个爬虫可以由多个 阶段 组成。每个 阶段 都使用 Python 函数实现,可以在不同的 爬虫 中重复使用。
编写 Memorious 爬虫的基本步骤
创建 YAML 爬虫配置文件
添加不同的阶段
编写阶段操作代码(可选)
测试、清洗、重复
文档
Memorious 的文档可在 alephdata.github.io/memorious 查找。请随意编辑 docs 文件夹中的源文件,并通过发送改进的拉取请求。
要在 docs 文件夹中构建文档,请运行 make html
您将在 /docs/_build/html 中找到生成的 HTML 文件。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源分发
memorious-2.6.5.tar.gz (41.0 kB 查看哈希值)
构建分发
memorious-2.6.5-py2.py3-none-any.whl (52.4 kB 查看哈希值)