跳转到主要内容

EEK,一个[网络]蜘蛛。

项目描述

EEK是一个以CSV格式输出网站元数据的网络爬虫。

安装

$ pip install eek

使用

用法:eek [-h] [–graph] [–delay SECONDS] [–grep PATTERN] [-i] URL

eek递归地爬取网站,并以CSV格式输出每个页面的元数据。

positional arguments:
  URL                The base URL to start the crawl

optional arguments:
  -h, --help         show this help message and exit
  --graph            output a graphviz digraph of links instead of CSV
                     metadata
  --delay SECONDS    Time, in seconds, to wait in between fetches. Defaults to
                     0.
  --grep PATTERN     Print urls containing PATTERN (a python regular
                     expression).
  -i, --ignore-case  Ignore case. Only valid with --grep

示例

eek http://example.com/

要将输出保存到文件,请使用重定向

eek http://example.com/ > ~/some_file.csv

要减慢爬取速度,请使用--delay=[seconds]

项目详情


下载文件

下载适合您平台文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分布

eek-1.0.2.tar.gz (7.4 kB 查看散列)

上传时间: 源代码

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面