跳转到主要内容

管理和自动化数据科学项目中的数据集。

项目描述

数据集管理器

使用YAML文件管理和自动化您的项目数据集。

Build Status

当前支持: Python 3.5Python 3.6Python 3.7Python 3.8

工作原理

此项目在数据集目录中创建一个名为 identifier.yaml 的文件,包含以下字段

source: https://raw.githubusercontent.com/pcsanwald/kaggle-titanic/master/train.csv

description: this dataset is a test dataset

identifier: 数据集的标识符,是带有 yaml 扩展名的文件名。

source: 数据集的位置。

description: 描述您的数据集以便以后记住。

每个数据集都是数据集目录中的一个YAML文件。

安装

使用pip只需

pip install dataset_manager

使用conda

conda install dataset_manager

使用

您可以使用命令列表来管理您的数据集,并与 Pandas 或其他数据分析工具集成。

管理功能

显示所有数据集

返回从数据集路径获取的所有数据集的表格

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.show_datasets()

创建一个数据集

在dataset_path定义中包含所有想要的信息创建数据集

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.create_dataset(identifier, source, description, **kwargs)

删除数据集

从dataset_path中删除数据集

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.remove_dataset(identifier)

准备数据集

下载并解压所有数据集

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.prepare_datasets()

使用多个文件系统

此管理器与Pyfilesystem2集成,您可以使用所有内置文件系统或使用第三方扩展或创建自己的扩展。

使用Pyfilesystem2,您可以在任何地方下载、提取和管理数据集。

from fs.tempfs import TempFS
from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download, TempFS())

manager.prepare_datasets() # all datasets will be downloaded and extracted on temporary files respecting your local_path_to_download hierarchy

获取一个数据集

获取数据集行作为字典

import pandas as pd
from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

dataset = manager.get_dataset(identifier)

df = pd.read_csv(dataset.uri)

数据集函数

下载数据集

根据源下载数据集。因为它验证缓存,所以只会下载一次。它支持HTTP、HTTPS和FTP协议。

dataset = manager.get_dataset(identifier)

dataset.download()

解压数据集

根据数据集URI解压数据集。它支持zip文件和其他由支持的库提供的文件:fs.archive

dataset = manager.get_dataset(identifier)

dataset.unzip()

准备数据集

在准备数据集之前将这些合并。

dataset = manager.get_dataset(identifier)

dataset.prepare()

贡献

只需提交拉取请求,然后快乐吧!

让我们共同成长吧 ;)

项目详情


下载文件

为您的平台下载文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分发

dataset_manager-0.1.0.tar.gz (8.4 kB 查看哈希值)

上传时间

构建分发

dataset_manager-0.1.0-py3-none-any.whl (15.2 kB 查看哈希值)

上传时间 Python 3

支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面