Перейти к основному содержимому

Командная строка и пакет Python для генерации и управления наборами данных в формате D3M.

Описание проекта

“DAI-Lab” Проект с открытым исходным кодом от Data to AI Lab в MIT.

PyPI Shield Downloads Travis CI Shield

D3M Dataset Manager

Менеджер наборов данных D3M - это командная строка и пакет Python для генерации и управления наборами данных в формате D3M.

Обзор

Менеджер наборов данных D3M - это командная строка и пакет Python для генерации и управления наборами данных в формате D3M.

Он поддерживает

  • загрузку наборов данных из веб-репозитория D3M или из S3 buckets
  • загрузку наборов данных в S3 buckets
  • загрузку или сохранение наборов данных в локальную файловую систему
  • разделение наборов данных на подмножества TRAIN, TEST и SCORE по индексам dataSplits.csv

Формат данных

MIT林肯实验室为DARPA的数据驱动模型发现项目开发了一套D3M数据集模式。该模式要求数据以易于阅读的格式存在,如CSV文件或JPG图像,并将数据与一些JSON格式的元数据规范一起放置在文件夹层次结构中,这些规范包括关于所有数据的详细信息以及我们试图解决的问题。

有关模式及其如何格式化数据以符合规范,请参阅模式文档

安装

从PyPI安装

安装D3M数据集管理器最简单、推荐的方式是使用pip

pip install d3m-dataset-manager

这将从PyPI拉取并安装最新的稳定版本。

从源代码安装

如果您想从源代码安装该项目,您可以克隆存储库,并在stable分支上运行make install来安装它

git clone git@github.com:HDI-Project/d3m-dataset-manager.git
cd d3m-dataset-manager
git checkout stable
make install

为开发安装

如果您想为项目做出贡献,则需要执行一些额外的步骤来使项目准备好进行开发。

有关此过程的更多详细信息,请参阅贡献指南

用法

配置

D3M存储库

为了与D3M存储库交互,您需要用户名和密码以登录到https://datadrivendiscovery.org/data

S3存储桶

为了与S3存储桶交互,您需要根据http://boto3.readthedocs.io/en/latest/guide/quickstart.html中的说明配置您的S3访问权限

在大多数情况下,创建包含以下内容的文件~/.aws/credentials:就足够了

[default]
aws_access_key_id = YOUR_ACCESS_KEY
aws_secret_access_key = YOUR_SECRET_KEY

命令行选项

D3M数据集管理器的主要元素是d3mdm命令,安装软件包后将在您的命令行中可用。

此命令支持以下选项

  • -i, --input - D3M网站,IPFS,S3存储桶或本地文件夹。
  • -o, --output - S3存储桶或本地文件夹。
  • -l, --list - 列出指定输入中所有可用的数据集。
  • -a, --all - 获取并处理指定输入中所有可用的数据集。
  • -s, --split - 使用dataSplits.csv索引分割数据集。
  • -r, --raw - 不下载分割的子集。-s选项隐式启用此选项。
  • -f, --force - 覆盖任何现有数据集。如果未启用,则跳过现有数据集。
  • -d, --dry-run - 不执行任何实际操作。仅列出它们。
  • 数据集名称 - 要下载的数据集名称。如果启用了-a选项,则将覆盖它们。

输入和输出

输入和输出选项根据格式隐式指向不同的位置

  • D3M: d3m:username:passsword:密码可以省略,同样用户名也可以省略。仅作为输入接受。如果省略,则稍后将提示用户输入它们。
  • IPFS: ipfs:数据集将通过D3M存储库的IPFS镜像下载。
  • S3: s3://bucket-name/folder:数据集将存储为.tar.gz存档。如果未指定folder,则默认为datasets
  • 本地文件系统: local/filesystem/path:路径必须存在,否则会引发错误。

用法示例

从D3M下载所有数据集,并将它们原样存储到名为d3m-data-dai的S3存储桶中。这将跳过现有数据集。

d3m-dataset-manager -i d3m:a_username:a_password -o s3:d3m-data-dai -a

从IPFS镜像下载所有数据集,将它们分割并存储到本地文件夹 datasets 中,覆盖任何现有数据。

这将会提示用户输入d3m密码。

d3m-dataset-manager -i ipfs -o datasets -a -s -f

从S3桶 bucket-name 下载数据集 185_baseball32_wikiqa 到本地文件夹 data/datasets。覆盖现有数据。

d3m-dataset-manager -i s3://bucket-name -o data/datasets -f 185_baseball 32_wikiqa

接下来是什么?

有关 D3M 数据集管理器 及其所有可能性和功能的更多详细信息,请查看文档网站

历史记录

v0.1.0 - 2019-10-09

初始发布。

项目详情


下载文件

下载您平台上的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

d3m-dataset-manager-0.1.0.tar.gz (55.0 kB 查看哈希值)

上传时间

构建分布

d3m_dataset_manager-0.1.0-py2.py3-none-any.whl (13.1 kB 查看哈希值)

上传时间 Python 2 Python 3

由以下机构支持