跳转到主要内容

DataLad扩展,用于语义元数据管理

项目描述

DataLad扩展,用于语义元数据管理

Build_status codecov.io GitHub release PyPI version fury.io Documentation

概述

此软件是DataLad的一个扩展,它为DataLad提供了一套替代的元数据处理命令(提取、聚合、过滤和报告)。

此扩展提供的命令

  • meta-extract -- 在文件或数据集上运行提取器并输出结果元数据(标准输出)。

  • meta-filter -- 在现有元数据上运行过滤器并返回结果元数据(标准输出)。

  • meta-add -- 将元数据记录或元数据记录列表(可能来自标准输入)添加到元数据存储,通常是数据集的git仓库。

  • meta-aggregate -- 将来自多个本地或远程元数据存储的元数据聚合到本地元数据存储中。

  • meta-dump -- 从本地或远程元数据存储中报告元数据。允许通过文件或数据集路径匹配模式(包括数据集版本和数据集ID)选择元数据。

  • 元行为 -- 执行由一个提供者发出的对象组成的处理管道,这些对象应该被处理,例如文件或元数据,以及执行在提供对象上操作的处理器管道,例如元数据提取和元数据添加。处理器通常并行执行。发布时提供了几个管道定义。

正在开发中的命令

  • meta-export -- 将元数据的扁平表示写入文件系统。目前您可以导出元数据到名为 metadata-dump.jsonl 的 JSON-line 文件。

     datalad meta-dump -d <dataset-path> -r >metadata-dump.jsonl
    
  • meta-import -- 从文件系统导入元数据的扁平表示。目前您可以像这样从 JSON-line 文件导入元数据,例如 metadata-dump.jsonl

     datalad meta-add -d <dataset-path> --json-lines -i metadata-dump.jsonl
    
  • meta-ingest-previous -- 从 metalad<=0.2.1 导入元数据。

额外的元数据提取实现

  • 与 datalad 和 metalad 提供的先前系列提取器兼容,即 metalad_coremetalad_annexmetalad_custommetalad_runprov

  • 新的元数据提取范式,区分文件级和数据集级提取器。包括两个示例提取器,metalad_example_datasetmetalad_example_file

  • metalad_external_datasetmetalad_external_file,数据集和文件提取器,它们执行外部过程以生成元数据,允许在 datalad 中处理外部创建的元数据。

  • metalad_studyminimeta -- 一个数据集级提取器,它读取 studyminimeta yaml 文件,并生成包含输入文件中数据 JSON-LD 兼容描述的元数据。

索引器

  • 为新的 datalad 索引器插件接口提供索引器。这些索引器将专有格式的元数据转换为键值对集合,这些键值对可以被 datalad search 用于搜索内容。

  • indexer_studyminimeta -- 将 studyminimeta JSON-LD 描述转换为 datalad search 的键值对。

  • indexer_jsonld -- 一个通用的 JSON-LD 索引器,旨在将任何 JSON-LD 描述转换为反映 JSON-LD 描述内容的键值对集合。

安装

在安装此软件包之前,请确保您已安装最新版本的 git-annex。[链接](https://git-annex.branchable.com/install)。然后,从 [PyPi](https://pypi.ac.cn/project/datalad-metalad) 安装最新版本的 datalad-metalad。建议使用专用 virtualenv

# create and enter a new virtual environment (strongly recommended)
virtualenv --system-site-packages --python=python3 ~/env/datalad
. ~/env/datalad/bin/activate

# install from PyPi
pip install datalad-metalad

支持

有关如何使用或为此扩展做出贡献的 DataLad(以及此扩展)的一般信息,请参阅 [DataLad 网站](http://datalad.org) 或 [主 GitHub 项目页面](http://datalad.org)。文档在此处:[http://docs.datalad.org/projects/metalad](http://docs.datalad.org/projects/metalad)

有关此软件的所有错误、关注点和增强请求都可以在此提交:[https://github.com/datalad/datalad-metalad/issues](https://github.com/datalad/datalad-metalad/issues)

如果您有问题或想询问有关如何使用 DataLad 的问题,请带有 datalad 标签在 [NeuroStars.org](https://neurostars.org/tags/datalad) 上提交问题。NeuroStars.org 是一个类似于 StackOverflow 的平台,但专门用于神经信息学。

所有先前的 DataLad 问题均在此处提供:[http://neurostars.org/tags/datalad/](http://neurostars.org/tags/datalad/)

致谢

此 DataLad 扩展是在德国联邦教育与研究部(BMBF 01GQ1905)和美国国家科学基金会(NSF 1912266)的支持下开发的。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

datalad_metalad-0.4.22.tar.gz (198.2 kB 查看哈希值)

上传时间

构建分发

datalad_metalad-0.4.22-py3-none-any.whl (228.3 kB 查看哈希值)

上传时间 Python 3