检查Wayback机器中URL的来源
项目描述
给waybackprov一个URL,它将总结哪些Internet Archive集合已存档该URL。这种信息有时可以提供关于为什么特定的网络资源或一组网络资源从网络上存档的见解。
安装
pip install waybackprov
基本用法
要检查特定的URL,以下是工作原理
% waybackprov https://twitter.com/EPAScottPruitt
364 https://archive.org/details/focused_crawls
306 https://archive.org/details/edgi_monitor
151 https://archive.org/details/www3.epa.gov
60 https://archive.org/details/epa.gov4
47 https://archive.org/details/epa.gov5
...
第一列包含特定URL的爬虫数量,第二列包含添加该URL的Internet Archive集合的URL。
时间
默认情况下,waybackprov只会查看当前年份。如果您希望它检查一段时间,请使用--start
和--end
选项
% waybackprov --start 2016 --end 2018 https://twitter.com/EPAScottPruitt
多页
如果您想查看特定URL前缀下的所有URL,可以使用--prefix
选项
% waybackprov --prefix https://twitter.com/EPAScottPruitt
这将使用Internet Archive的CDX API包括您提供的URL的扩展URL,例如
https://twitter.com/EPAScottPruitt/status/1309839080398339
但它也可能包括您可能不希望包含的内容,例如
https://twitter.com/EPAScottPruitt/status/1309839080398339/media/1
要进一步限制URL,请使用--match
参数指定正则表达式,仅检查特定的URL。强烈建议进一步指定您感兴趣的URL,因为它可以防止对CSS、JavaScript和图像文件进行大量查找,这些文件是原始爬取的资源的一部分。
% waybackprov --prefix --match 'status/\d+$' https://twitter.com/EPAScottPruitt
集合
在解释这些数据时,要记住一点,集合可以包含其他集合。例如,edgi_monitor集合是focused_crawls的一个子集合。
如果只使用--collapse
选项,则只报告给定抓取的最具体集合。因此,如果coll1是coll2的一部分,而coll2又是coll3的一部分,则只报告coll1,而不是coll1、coll2和coll3。这涉及到在互联网档案馆API中进行集合元数据查找,因此会显著降低性能。
JSON和CSV
如果您想以JSON或CSV格式查看原始数据,请使用--format
选项。当您使用这两种格式之一时,您将看到每个抓取的元数据,而不是摘要。
日志
如果您想查看waybackprov的详细信息,请使用--log
选项提供要记录的文件路径
% waybackprov --log waybackprov.log https://example.com/
测试
如果您想先进行测试,请安装pytest然后
pytest test.py
项目详情
waybackprov-0.0.9.tar.gz的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a46a01dd8fad18185508b404dcc6a1739b207b802cf8203cd16c2c398a43db62 |
|
MD5 | dfa411ce5c03a4ff75ef8de4ff34c693 |
|
BLAKE2b-256 | f05388c7ed3d54cdb52aba0ee365d9c372ac92dd077e28cd8b88729939d3593c |