数据集管理员是一个下载和应用支持数据集列表所需的预处理的工具
项目描述
数据集管理员
安装过程
python -m pip install dataset-librarian
有关更多信息,请查看数据集管理员PyPI包
数据集
数据集名称 | 描述 | 下载 | 预处理 | 命令 |
---|---|---|---|---|
brca |
乳腺癌数据集,包含分类的对比增强乳腺摄影数据和放射科医生笔记。 | 支持 | 先决条件:使用浏览器,下载低能和减影图像,然后使用--directory 参数提供包含下载图像的目录路径。 |
python -m dataset_librarian.dataset -n brca --download --preprocess -d <数据集目录路径> --split_ratio 0.1 |
tabformer |
TabFormer数据 | 支持 | 不支持 | python -m dataset_librarian.dataset -n tabformer --download |
dureader-vis |
DuReader-vis,用于文档自动化。百度搜索引擎的中文开放域文档视觉问答(Open-Domain DocVQA)数据集,包含约15K个问答对和158K个文档图像。 | 支持 | 不支持 | python -m dataset_librarian.dataset -n dureader-vis --download |
msmarco |
MS MARCO 是一个专注于搜索深度学习的数据集集合。 | 支持 | 不支持 | python -m dataset_librarian.dataset -n msmarco --download |
mvtec-ad |
MVTEC Anomaly Detection DATASET 用于工业检查。它包含超过 5000 张不同对象和纹理类别的超高分辨率图像。 | 支持 | 支持 | python -m dataset_librarian.dataset -n mvtec-ad --download --preprocess -d <path to the dataset directory> |
命令行界面
输入参数 | 描述 |
---|---|
--list (-l) | 列出支持的数据集。 |
--name (-n) | 数据集名称 |
--directory (-d) | 在您的系统中保存原始数据集的目录位置。也是预处理数据集文件将写入的位置。如果未设置,将创建一个以数据集名称命名的目录。 |
--download | 下载指定的数据集。 |
--preprocess | 如果支持,则预处理数据集。 |
--split_ratio | 测试数据的分割比例,默认值为 0.1。 |
Python API
from dataset_librarian.dataset_api.download import download_dataset
from dataset_librarian.dataset_api.preprocess import preprocess_dataset
# Download the datasets
download_dataset('brca', <path to the raw dataset directory>)
# Preprocess the datasets
preprocess_dataset('brca', <path to the raw dataset directory>)
从源构建
克隆 Intel® 架构模型库 仓库,并导航到 dataset_api
目录。
git clone https://github.com/IntelAI/models.git
cd models/datasets/dataset_api
python -m pip install --upgrade pip build setuptools wheel
python -m pip install .