跳转到主要内容

Nasy Crawler Framework -- 从未有过如此纯粹的爬虫。

项目描述

目录

序言

从未有过如此纯粹的爬虫 nacf

尽管我经常编写爬虫,但我不喜欢使用像scrapy这样的大型框架,而是更喜欢简单的 requests+bs4 或更通用的 requests_html。然而,这两个对于爬虫来说不方便。例如,错误重试或并行爬取等地方需要我自己编写。编写时不是很难,但编写过多可能会很繁琐。因此,我开始编写这个nacf(Nasy Crawler Framework),希望简化一些错误重试或并行编写爬虫的过程。

表1:
版本 描述
requests-html 0.10.0 为人类解析HTML。
nalude 0.3.0 一个标准模块。受Haskell的Prelude启发。

用法

测试

开发过程

DONE Http函数

CLOSED: <Thu Feb 28 20:51:00 2019>

DONE Get

CLOSED: <Tue Dec 25 17:36:00 2018>

DONE Post

已关闭: <2019年2月28日星期四 20:44:00>

已完成Bug

CLOSED: <Thu Feb 28 20:51:00 2019>

已完成修复由inspect.Parameter引起的错误,导致函数并行下降。 :err:1

已关闭: <2018年12月26日星期三 20:26:00>

待办事项 文档

待办事项 使用说明

尾声

历史

版本 1.0.2

  • 数据: <2019年3月10日星期日>
  • 变更: 更新nalude。

版本 1.0.1

  • 数据: <2019年3月10日星期日>
  • 变更: 更新requests-html。

版本 1.0.0

  • 数据: <2019年2月28日>
  • 变更: 现在,旧的HTTP方法(getpost)无法接受多个URL。相反,我们可以使用 getsposts
  • 新增: - nacf.html
    • nacf.json
    • nacf.gets
    • nacf.posts
  • 包含: - nalude

版本 0.1.2

  • 数据: <2018年12月26日>
  • 修复: 修复了上一个版本中的inspect.Parameter错误。

版本 0.1.1

  • 数据: <2018年12月26日>
  • 忽略:inspect.Parameter引起的错误。
  • 需要帮助: 有人能帮我关于Parameter的问题吗?

版本 0.1.0

  • 日期: <2018年12月23日星期日>
  • 纪念版本: 第一个版本
    • 基本功能。

项目详情


下载文件

下载适合您平台的文件。如果您不确定该选择哪个,请了解更多关于安装包的信息。

源代码分发

nacf-1.0.3.tar.gz (17.9 kB 查看哈希值)

上传时间: 源代码

构建分发

nacf-1.0.3-py3-none-any.whl (20.8 kB 查看哈希值)

上传时间: Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面