waybackprov · PyPI · Python 包索引

检查Wayback机器中URL的来源

项目描述

给waybackprov一个URL，它将总结哪些Internet Archive集合已存档该URL。这种信息有时可以提供关于为什么特定的网络资源或一组网络资源从网络上存档的见解。

安装

pip install waybackprov

基本用法

要检查特定的URL，以下是工作原理

% waybackprov https://twitter.com/EPAScottPruitt
364 https://archive.org/details/focused_crawls
306 https://archive.org/details/edgi_monitor
151 https://archive.org/details/www3.epa.gov
 60 https://archive.org/details/epa.gov4
 47 https://archive.org/details/epa.gov5
...

第一列包含特定URL的爬虫数量，第二列包含添加该URL的Internet Archive集合的URL。

时间

默认情况下，waybackprov只会查看当前年份。如果您希望它检查一段时间，请使用--start和--end选项

% waybackprov --start 2016 --end 2018 https://twitter.com/EPAScottPruitt

多页

如果您想查看特定URL前缀下的所有URL，可以使用--prefix选项

% waybackprov --prefix https://twitter.com/EPAScottPruitt

这将使用Internet Archive的CDX API包括您提供的URL的扩展URL，例如

https://twitter.com/EPAScottPruitt/status/1309839080398339

但它也可能包括您可能不希望包含的内容，例如

https://twitter.com/EPAScottPruitt/status/1309839080398339/media/1

要进一步限制URL，请使用--match参数指定正则表达式，仅检查特定的URL。强烈建议进一步指定您感兴趣的URL，因为它可以防止对CSS、JavaScript和图像文件进行大量查找，这些文件是原始爬取的资源的一部分。

% waybackprov --prefix --match 'status/\d+$' https://twitter.com/EPAScottPruitt

集合

在解释这些数据时，要记住一点，集合可以包含其他集合。例如，edgi_monitor集合是focused_crawls的一个子集合。

如果只使用--collapse选项，则只报告给定抓取的最具体集合。因此，如果coll1是coll2的一部分，而coll2又是coll3的一部分，则只报告coll1，而不是coll1、coll2和coll3。这涉及到在互联网档案馆API中进行集合元数据查找，因此会显著降低性能。

JSON和CSV

如果您想以JSON或CSV格式查看原始数据，请使用--format选项。当您使用这两种格式之一时，您将看到每个抓取的元数据，而不是摘要。

日志

如果您想查看waybackprov的详细信息，请使用--log选项提供要记录的文件路径

% waybackprov --log waybackprov.log https://example.com/

测试

如果您想先进行测试，请安装pytest然后

pytest test.py

项目详情

发布历史发布通知 | RSS订阅

本版本

0.0.9

2022年5月19日

0.0.8

2021年1月23日

0.0.7

2018年7月30日

0.0.6

2018年7月24日

0.0.5

2018年7月24日

0.0.4

2018年7月23日

0.0.3

2018年7月21日

0.0.2

2018年7月12日

0.0.1

2018年7月12日

下载文件

下载您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源代码分发

waybackprov-0.0.9.tar.gz (5.2 kB 查看哈希)

上传时间 2022年5月19日 源

waybackprov-0.0.9.tar.gz的哈希

waybackprov-0.0.9.tar.gz的哈希
算法	哈希摘要
SHA256	`a46a01dd8fad18185508b404dcc6a1739b207b802cf8203cd16c2c398a43db62`
MD5	`dfa411ce5c03a4ff75ef8de4ff34c693`
BLAKE2b-256	`f05388c7ed3d54cdb52aba0ee365d9c372ac92dd077e28cd8b88729939d3593c`

waybackprov 0.0.9

导航

验证详细信息

维护者

未验证详细信息

项目链接

元信息

项目描述

安装

基本用法

时间

多页

集合

JSON和CSV

日志

测试

项目详情

验证详细信息

维护者

未验证详细信息

项目链接

元信息

发布历史发布通知 | RSS订阅

下载文件

源代码分发

waybackprov 0.0.9

导航

验证详细信息

维护者

未验证详细信息

项目链接

元信息

项目描述

安装

基本用法

时间

多页

集合

JSON和CSV

日志

测试

项目详情

验证详细信息

维护者

未验证详细信息

项目链接

元信息

发布历史 发布通知 | RSS订阅

下载文件

源代码分发

发布历史发布通知 | RSS订阅