跳转到主要内容

检查Wayback机器中URL的来源

项目描述

waybackprov一个URL,它将总结哪些Internet Archive集合已存档该URL。这种信息有时可以提供关于为什么特定的网络资源或一组网络资源从网络上存档的见解。

安装

pip install waybackprov

基本用法

要检查特定的URL,以下是工作原理

% waybackprov https://twitter.com/EPAScottPruitt
364 https://archive.org/details/focused_crawls
306 https://archive.org/details/edgi_monitor
151 https://archive.org/details/www3.epa.gov
 60 https://archive.org/details/epa.gov4
 47 https://archive.org/details/epa.gov5
...

第一列包含特定URL的爬虫数量,第二列包含添加该URL的Internet Archive集合的URL。

时间

默认情况下,waybackprov只会查看当前年份。如果您希望它检查一段时间,请使用--start--end选项

% waybackprov --start 2016 --end 2018 https://twitter.com/EPAScottPruitt

多页

如果您想查看特定URL前缀下的所有URL,可以使用--prefix选项

% waybackprov --prefix https://twitter.com/EPAScottPruitt

这将使用Internet Archive的CDX API包括您提供的URL的扩展URL,例如

https://twitter.com/EPAScottPruitt/status/1309839080398339

但它也可能包括您可能不希望包含的内容,例如

https://twitter.com/EPAScottPruitt/status/1309839080398339/media/1

要进一步限制URL,请使用--match参数指定正则表达式,仅检查特定的URL。强烈建议进一步指定您感兴趣的URL,因为它可以防止对CSS、JavaScript和图像文件进行大量查找,这些文件是原始爬取的资源的一部分。

% waybackprov --prefix --match 'status/\d+$' https://twitter.com/EPAScottPruitt

集合

在解释这些数据时,要记住一点,集合可以包含其他集合。例如,edgi_monitor集合是focused_crawls的一个子集合。

如果只使用--collapse选项,则只报告给定抓取的最具体集合。因此,如果coll1coll2的一部分,而coll2又是coll3的一部分,则只报告coll1,而不是coll1coll2coll3。这涉及到在互联网档案馆API中进行集合元数据查找,因此会显著降低性能。

JSON和CSV

如果您想以JSON或CSV格式查看原始数据,请使用--format选项。当您使用这两种格式之一时,您将看到每个抓取的元数据,而不是摘要。

日志

如果您想查看waybackprov的详细信息,请使用--log选项提供要记录的文件路径

% waybackprov --log waybackprov.log https://example.com/

测试

如果您想先进行测试,请安装pytest然后

pytest test.py

项目详情


下载文件

下载您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

waybackprov-0.0.9.tar.gz (5.2 kB 查看哈希)

上传时间

支持