收集Internet Archive收藏集的元数据
项目描述
iacoll
iacoll将收集Internet Archive收藏集中所有条目的元数据,并将其存储在LevelDB数据库中。该数据库是一个键/值存储,其中键是唯一的Internet Archive条目标识符,值是条目元数据的JSON。
例如,您可以下载马里兰大学收藏中条目的元数据
% iacoll university_maryland_cp
默认情况下,iacoll将在以条目标识符命名的目录中创建LevelDB数据库。如果您想控制这一点,您可以显式地传递它
% iacoll university_maryland_cp --db /path/to/my/leveldb/database
当您多次运行iacoll时,它将查看数据库,并且只获取较新的记录。如果更新失败,您可能需要强制进行全面扫描
% iacoll university_maryland_cp --fullscan
如果您想以行对齐的JSON格式转储元数据,可以使用--dump
% iacoll university_maryland_cp --dump > university_maryland_cp.jsonl
安装
要安装iacoll,您首先需要安装Python,然后
pip install iacoll
项目详情
关闭
iacoll-0.0.3.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 498d1c0835004b964ad810c5b4ddf20ad12e13f9277edaf62bbd08cc3efc0a6c |
|
MD5 | 18e38e89ab15eb02c8d4a0c7d965ef83 |
|
BLAKE2b-256 | 163027cbad2d8e338bf9930fd8cce0783ac263b73c7ded2ae820af4b86af1820 |