DataLad扩展,用于在Dataverse上存储数据集
项目描述
DataLad扩展,用于处理Dataverse
Dataverse 是一种开源研究数据存储库软件,作为数据或元数据存储库在全球范围内部署。它支持使用描述性元数据共享、保存、引用、探索和分析研究数据,从而极大地促进了开放、可重复和FAIR科学。另一方面,DataLad 是一个基于Git和git-annex构建的数据管理和数据发布工具。其核心数据结构,DataLad数据集,可以版本控制任何大小的文件,并简化数据共享、更新和协作。此DataLad扩展包提供了与Dataverse实例之间互操作性的支持,以支持数据集在Dataverse实例之间传输。
安装
# create and enter a new virtual environment (optional)
$ virtualenv --python=python3 ~/env/dl-dataverse
$ . ~/env/dl-dataverse/bin/activate
# install from PyPi
$ python -m pip install datalad-dataverse
如何使用
此扩展提供的附加命令在安装后立即可用。但是,为了充分利用所有改进,必须通过执行以下操作来启用扩展以自动加载:
git config --global --add datalad.extensions.load dataverse
这样做将使扩展也能够更改核心DataLad包及其命令的行为,例如能够直接从Dataverse数据集着陆页克隆。
与Windows的完全兼容性需要安装版本10.20230321(或更高版本)的git-annex。
此扩展提供的功能摘要
- 数据Lad与Dataverse版本5(或更高版本)之间的互操作性。
- 一个
add-sibling-dataverse
命令,用于将Dataverse数据集注册为DataLad数据集的远程兄弟。 - 一个
git-annex-remote-dataverse
特殊远程实现,用于通过git-annex在Dataverse数据集中存储和检索数据。 - 这两个功能的结合使得可以在Dataverse上存档和检索完整的DataLad数据集,包括版本历史和元数据。支持从Dataverse数据集着陆页面直接进行
datalad clone
,生成一个功能齐全的DataLad数据集克隆(Git仓库)。
贡献者 ✨
感谢这些杰出的人们(emoji key)
本项目遵循all-contributors规范。欢迎任何形式的贡献!
致谢
此DataLad扩展是在德国联邦教育和研究部(BMBF 01GQ1905)、美国国家科学基金会(NSF 1912266)、赫尔姆霍兹研究中心朱利奇(RDM挑战2022)以及德国研究基金会(DFG)的资助下(SFB 1451,INF项目)开发的,项目编号为431549029。