管理和自动化数据科学项目中的数据集。
项目描述
数据集管理器
使用YAML文件管理和自动化您的项目数据集。
工作原理
此项目在数据集目录中创建一个名为 identifier.yaml 的文件,包含以下字段
source: https://raw.githubusercontent.com/pcsanwald/kaggle-titanic/master/train.csv
description: this dataset is a test dataset
identifier: 数据集的标识符,是带有 yaml 扩展名的文件名。
source: 数据集的位置。
description: 描述您的数据集以便以后记住。
每个数据集都是数据集目录中的一个YAML文件。
安装
使用pip只需
pip install dataset_manager
使用conda
conda install dataset_manager
使用
您可以使用命令列表来管理您的数据集,并与 Pandas 或其他数据分析工具集成。
管理功能
显示所有数据集
返回从数据集路径获取的所有数据集的表格
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
manager.show_datasets()
创建一个数据集
在dataset_path定义中包含所有想要的信息创建数据集
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
manager.create_dataset(identifier, source, description, **kwargs)
删除数据集
从dataset_path中删除数据集
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
manager.remove_dataset(identifier)
准备数据集
下载并解压所有数据集
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
manager.prepare_datasets()
使用多个文件系统
此管理器与Pyfilesystem2集成,您可以使用所有内置文件系统或使用第三方扩展或创建自己的扩展。
使用Pyfilesystem2,您可以在任何地方下载、提取和管理数据集。
from fs.tempfs import TempFS
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download, TempFS())
manager.prepare_datasets() # all datasets will be downloaded and extracted on temporary files respecting your local_path_to_download hierarchy
获取一个数据集
获取数据集行作为字典
import pandas as pd
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
dataset = manager.get_dataset(identifier)
df = pd.read_csv(dataset.uri)
数据集函数
下载数据集
根据源下载数据集。因为它验证缓存,所以只会下载一次。它支持HTTP、HTTPS和FTP协议。
dataset = manager.get_dataset(identifier)
dataset.download()
解压数据集
根据数据集URI解压数据集。它支持zip文件和其他由支持的库提供的文件:fs.archive
dataset = manager.get_dataset(identifier)
dataset.unzip()
准备数据集
在准备数据集之前将这些合并。
dataset = manager.get_dataset(identifier)
dataset.prepare()
贡献
只需提交拉取请求,然后快乐吧!
让我们共同成长吧 ;)
项目详情
下载文件
为您的平台下载文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源分发
dataset_manager-0.1.0.tar.gz (8.4 kB 查看哈希值)
构建分发
dataset_manager-0.1.0-py3-none-any.whl (15.2 kB 查看哈希值)
关闭
dataset_manager-0.1.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1f742e3cd398b715eb07dec2edbe0fbc2d1b0ac571aa5a00648726913e452f55 |
|
MD5 | 8df467334c1945846e3db37ebe318211 |
|
BLAKE2b-256 | 6b8e0308c7a3bbefb777da88a22c4a507ed99348cb662077cc2fec48f9e1ef1c |
关闭
dataset_manager-0.1.0-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a32b8535f8b5a34569e3f94f895c3071533f709f3f8261a8860569e57aaf95ea |
|
MD5 | 83ceaf705f421a4b8776b70d72e26aa1 |
|
BLAKE2b-256 | cec0935cab3b1b7932892c9579e00b147c58103b4b0363437967782cd3374318 |