数据集管理员是一个下载和应用支持数据集列表所需的预处理的工具

这些详情尚未由PyPI验证

项目描述

数据集管理员

安装过程

python -m pip install dataset-librarian

有关更多信息，请查看数据集管理员PyPI包

数据集

数据集名称	描述	下载	预处理	命令
`brca`	乳腺癌数据集，包含分类的对比增强乳腺摄影数据和放射科医生笔记。	支持	先决条件：使用浏览器，下载低能和减影图像，然后使用`--directory`参数提供包含下载图像的目录路径。	`python -m dataset_librarian.dataset -n brca --download --preprocess -d <数据集目录路径> --split_ratio 0.1`
`tabformer`	TabFormer数据	支持	不支持	`python -m dataset_librarian.dataset -n tabformer --download`
`dureader-vis`	DuReader-vis，用于文档自动化。百度搜索引擎的中文开放域文档视觉问答（Open-Domain DocVQA）数据集，包含约15K个问答对和158K个文档图像。	支持	不支持	`python -m dataset_librarian.dataset -n dureader-vis --download`
`msmarco`	MS MARCO 是一个专注于搜索深度学习的数据集集合。	支持	不支持	`python -m dataset_librarian.dataset -n msmarco --download`
`mvtec-ad`	MVTEC Anomaly Detection DATASET 用于工业检查。它包含超过 5000 张不同对象和纹理类别的超高分辨率图像。	支持	支持	`python -m dataset_librarian.dataset -n mvtec-ad --download --preprocess -d <path to the dataset directory>`

命令行界面

输入参数	描述
--list (-l)	列出支持的数据集。
--name (-n)	数据集名称
--directory (-d)	在您的系统中保存原始数据集的目录位置。也是预处理数据集文件将写入的位置。如果未设置，将创建一个以数据集名称命名的目录。
--download	下载指定的数据集。
--preprocess	如果支持，则预处理数据集。
--split_ratio	测试数据的分割比例，默认值为 0.1。

Python API

from dataset_librarian.dataset_api.download import download_dataset
from dataset_librarian.dataset_api.preprocess import preprocess_dataset

# Download the datasets
download_dataset('brca', <path to the raw dataset directory>)

# Preprocess the datasets
preprocess_dataset('brca', <path to the raw dataset directory>)

从源构建

克隆 Intel® 架构模型库仓库，并导航到 dataset_api 目录。

git clone https://github.com/IntelAI/models.git
cd models/datasets/dataset_api
python -m pip install --upgrade pip build setuptools wheel
python -m pip install .

项目详情

这些详情尚未由PyPI验证

发布历史发布通知 | RSS 源

此版本

1.0.4

2023 年 8 月 10 日

1.0.3

2023 年 6 月 13 日

1.0.2

2023 年 6 月 5 日

1.0.1 已撤回

2023 年 6 月 5 日

撤回此版本的原因

不正确的 python 兼容性版本

1.0.0

2023 年 5 月 30 日

0.0.0.dev1 预发布已撤回

2023 年 5 月 26 日

撤回此版本的原因

测试

0.0.0.dev0 预发布已撤回

2023 年 5 月 5 日

撤回此版本的原因

测试

下载文件

下载您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分布

dataset_librarian-1.0.4.tar.gz (29.8 kB 查看散列值)

上传时间 2023 年 8 月 10 日 源

构建分布

dataset_librarian-1.0.4-py3-none-any.whl (21.0 kB 查看散列值)

上传时间 2023 年 8 月 10 日 Python 3

散列值 for dataset_librarian-1.0.4.tar.gz

散列值 for dataset_librarian-1.0.4.tar.gz
算法	散列摘要
SHA256	`d969f7eac1459e052d6f4e1ed541e3daf5184b260081ae9edcb2f54bc7a69544`
MD5	`fcbafbad0f5292089ec2691c173620b8`
BLAKE2b-256	`35202b867808969ccc48d736ad7e6dcfaa0816d8a50dd06e85aae47d8bfa6cb9`

散列值 for dataset_librarian-1.0.4-py3-none-any.whl

散列值 for dataset_librarian-1.0.4-py3-none-any.whl
算法	散列摘要
SHA256	`0b63d224c88f60e8b6e8f203e35966693a8fde58b0c1c0f1a20524045c33d09c`
MD5	`91a9a318b5d2ffb29d7ce7bd102f7a5e`
BLAKE2b-256	`bf473552675b6fafca67c584ef1e7ad4b3da727f35f7161093624310bc043508`

数据集管理员 1.0.4

导航

验证详情

维护者

未验证详情

元数据

分类器

项目描述

数据集管理员

安装过程

数据集

命令行界面

Python API

从源构建

项目详情

验证详情

维护者

未验证详情

元数据

分类器

发布历史发布通知 | RSS 源

下载文件

源分布

构建分布

数据集管理员 1.0.4

导航

验证详情

维护者

未验证详情

元数据

分类器

项目描述

数据集管理员

安装过程

数据集

命令行界面

Python API

从源构建

项目详情

验证详情

维护者

未验证详情

元数据

分类器

发布历史 发布通知 | RSS 源

下载文件

源分布

构建分布

发布历史发布通知 | RSS 源