Командная строка и пакет Python для генерации и управления наборами данных в формате D3M.
Описание проекта
Проект с открытым исходным кодом от Data to AI Lab в MIT.
D3M Dataset Manager
Менеджер наборов данных D3M - это командная строка и пакет Python для генерации и управления наборами данных в формате D3M.
- Документация: https://HDI-Project.github.io/d3m-dataset-manager
- Домашняя страница: https://github.com/HDI-Project/d3m-dataset-manager
Обзор
Менеджер наборов данных D3M - это командная строка и пакет Python для генерации и управления наборами данных в формате D3M.
Он поддерживает
- загрузку наборов данных из веб-репозитория D3M или из S3 buckets
- загрузку наборов данных в S3 buckets
- загрузку или сохранение наборов данных в локальную файловую систему
- разделение наборов данных на подмножества TRAIN, TEST и SCORE по индексам dataSplits.csv
Формат данных
MIT林肯实验室为DARPA的数据驱动模型发现项目开发了一套D3M数据集模式。该模式要求数据以易于阅读的格式存在,如CSV文件或JPG图像,并将数据与一些JSON格式的元数据规范一起放置在文件夹层次结构中,这些规范包括关于所有数据的详细信息以及我们试图解决的问题。
有关模式及其如何格式化数据以符合规范,请参阅模式文档
安装
从PyPI安装
安装D3M数据集管理器最简单、推荐的方式是使用pip
pip install d3m-dataset-manager
这将从PyPI拉取并安装最新的稳定版本。
从源代码安装
如果您想从源代码安装该项目,您可以克隆存储库,并在stable
分支上运行make install
来安装它
git clone git@github.com:HDI-Project/d3m-dataset-manager.git
cd d3m-dataset-manager
git checkout stable
make install
为开发安装
如果您想为项目做出贡献,则需要执行一些额外的步骤来使项目准备好进行开发。
有关此过程的更多详细信息,请参阅贡献指南
用法
配置
D3M存储库
为了与D3M存储库交互,您需要用户名和密码以登录到https://datadrivendiscovery.org/data
S3存储桶
为了与S3存储桶交互,您需要根据http://boto3.readthedocs.io/en/latest/guide/quickstart.html中的说明配置您的S3访问权限
在大多数情况下,创建包含以下内容的文件~/.aws/credentials:
就足够了
[default]
aws_access_key_id = YOUR_ACCESS_KEY
aws_secret_access_key = YOUR_SECRET_KEY
命令行选项
D3M数据集管理器的主要元素是d3mdm
命令,安装软件包后将在您的命令行中可用。
此命令支持以下选项
- -i, --input - D3M网站,IPFS,S3存储桶或本地文件夹。
- -o, --output - S3存储桶或本地文件夹。
- -l, --list - 列出指定输入中所有可用的数据集。
- -a, --all - 获取并处理指定输入中所有可用的数据集。
- -s, --split - 使用dataSplits.csv索引分割数据集。
- -r, --raw - 不下载分割的子集。
-s
选项隐式启用此选项。 - -f, --force - 覆盖任何现有数据集。如果未启用,则跳过现有数据集。
- -d, --dry-run - 不执行任何实际操作。仅列出它们。
- 数据集名称 - 要下载的数据集名称。如果启用了
-a
选项,则将覆盖它们。
输入和输出
输入和输出选项根据格式隐式指向不同的位置
- D3M:
d3m:username:passsword
:密码可以省略,同样用户名也可以省略。仅作为输入接受。如果省略,则稍后将提示用户输入它们。 - IPFS:
ipfs
:数据集将通过D3M存储库的IPFS镜像下载。 - S3:
s3://bucket-name/folder
:数据集将存储为.tar.gz
存档。如果未指定folder
,则默认为datasets
。 - 本地文件系统:
local/filesystem/path
:路径必须存在,否则会引发错误。
用法示例
从D3M下载所有数据集,并将它们原样存储到名为d3m-data-dai
的S3存储桶中。这将跳过现有数据集。
d3m-dataset-manager -i d3m:a_username:a_password -o s3:d3m-data-dai -a
从IPFS镜像下载所有数据集,将它们分割并存储到本地文件夹 datasets
中,覆盖任何现有数据。
这将会提示用户输入d3m密码。
d3m-dataset-manager -i ipfs -o datasets -a -s -f
从S3桶 bucket-name
下载数据集 185_baseball
和 32_wikiqa
到本地文件夹 data/datasets
。覆盖现有数据。
d3m-dataset-manager -i s3://bucket-name -o data/datasets -f 185_baseball 32_wikiqa
接下来是什么?
有关 D3M 数据集管理器 及其所有可能性和功能的更多详细信息,请查看文档网站。
历史记录
v0.1.0 - 2019-10-09
初始发布。
项目详情
d3m-dataset-manager-0.1.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a3f8f37ff0e813df1b67b98dd096819bf6f140717dd352d9e4d1e3eef44fc9b7 |
|
MD5 | 8e711c2707451371d81d88e32ad75ab9 |
|
BLAKE2b-256 | 65f8a598bd25012c9c5caa413317519f3cd0c70005f0851d20bc7d84d19f8354 |
d3m_dataset_manager-0.1.0-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 0c6255b0cf7a1070e65a9d24289f0a1e341a7b1fffc3abfada4263f5c283ca0f |
|
MD5 | 744e4b8bf3fe2e13e13c4296630211db |
|
BLAKE2b-256 | 123bb953b1761dd2cfe5d5a0b953cebb5c0adc0e76c694bdc5ae6859d2006bba |