Invenio模块,用于在存储库之间进行OAI-PMH元数据收割。
项目描述
Invenio模块,用于在存储库之间进行OAI-PMH元数据收割。
免费软件:GPLv2许可证
这是一个实验性的开发预览版。
功能
本模块允许您通过 Sickle 模块轻松地采集 OAI-PMH 存储库,并将输出结果输入到您的采集工作流中,或直接保存到文件。您可以通过网页界面配置您的 OAI-PMH 源,并通过命令行运行或安排立即采集任务,或者通过 Celery beat 定期运行。
采集操作简单
inveniomanage oaiharvester get -u http://export.arxiv.org/oai2 -i oai:arXiv.org:1507.07286 > my_record.xml
这将采集特定记录的存储库,并将记录打印到 stdout,在这种情况下,将保存到名为 my_record.xml 的文件中。
如果您希望自动将采集的记录保存到目录中,这很容易
inveniomanage oaiharvester get -u http://export.arxiv.org/oai2 -i oai:arXiv.org:1507.07286 -o dir
注意输出 -o 参数,该参数指定如何输出采集的记录。有三个选项:
发送到工作流(例如 -o workflow)
将文件保存到文件夹中(例如 -o dir)
打印到 stdout(默认)
使用工作流进行采集
inveniomanage oaiharvester get -u http://export.arxiv.org/oai2 -i oai:arXiv.org:1507.07286 -o workflow
当您将采集的记录发送到工作流时,您可以按照自己的意愿处理采集的文件,然后甚至可以自动将其上传到自己的存储库。
本模块已提供了一些
管理 OAI-PMH 源
如果您想要存储 OAI 存储库的配置,您可以使用通过管理面板提供的行政界面。如果您经常需要查询服务器,这将很有用。
在此处,您可以添加有关服务器 URL、要使用的 metadataPrefix 等信息。这些信息在安排和运行任务时也可用
inveniomanage oaiharvester get -n somerepo -i oai:example.org:1234
在此,我们使用 -n, –name 参数指定要查询的存储的 OAI-PMH 源的名称。
API
如果您需要通过 Python 安排或运行采集,您可以使用我们的 API
from invenio_oaiharvester.api import get_records
for rec in get_records(identifiers=["oai:arXiv.org:1207.7214"],
url="http://export.arxiv.org/oai2"):
print rec.raw
更改
版本 0.1.1(发布日期 2015-08-25)
添加了缺少的 invenio_upgrader 依赖项,并修改了以前升级配方,以符合其分离为独立包。
修复了由于 invenio-workflows 分离而导致的导入问题。(#9)
版本 0.1.0(发布日期 2015-08-14)
首次公开发布
项目详细信息
invenio-oaiharvester-0.1.1.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 405d8a777c498294e83f0fc3fad43b1ca2b23ae81d64b2096b5b02cde4b5e426 |
|
MD5 | e2211df7ed8aa580de8dba41a62e2e69 |
|
BLAKE2b-256 | ebaac58f68afe8a138fd2d3da4e78f958bf4f793f5342279fa427c2ef62d8460 |