跳转到主要内容

收集Internet Archive收藏集的元数据

项目描述

iacoll

iacoll将收集Internet Archive收藏集中所有条目的元数据,并将其存储在LevelDB数据库中。该数据库是一个键/值存储,其中键是唯一的Internet Archive条目标识符,值是条目元数据的JSON。

例如,您可以下载马里兰大学收藏中条目的元数据

% iacoll university_maryland_cp 

默认情况下,iacoll将在以条目标识符命名的目录中创建LevelDB数据库。如果您想控制这一点,您可以显式地传递它

% iacoll university_maryland_cp --db /path/to/my/leveldb/database

当您多次运行iacoll时,它将查看数据库,并且只获取较新的记录。如果更新失败,您可能需要强制进行全面扫描

% iacoll university_maryland_cp --fullscan

如果您想以行对齐的JSON格式转储元数据,可以使用--dump

% iacoll university_maryland_cp --dump > university_maryland_cp.jsonl

安装

要安装iacoll,您首先需要安装Python,然后

pip install iacoll

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装软件包的信息。

源分布

iacoll-0.0.3.tar.gz (3.0 kB 查看哈希值)

上传时间:

由以下支持