跳转到主要内容

数据集管理员是一个下载和应用支持数据集列表所需的预处理的工具

项目描述

数据集管理员

安装过程

python -m pip install dataset-librarian

有关更多信息,请查看数据集管理员PyPI包

数据集

数据集名称 描述 下载 预处理 命令
brca 乳腺癌数据集,包含分类的对比增强乳腺摄影数据和放射科医生笔记。 支持 先决条件:使用浏览器,下载低能和减影图像,然后使用--directory参数提供包含下载图像的目录路径。 python -m dataset_librarian.dataset -n brca --download --preprocess -d <数据集目录路径> --split_ratio 0.1
tabformer TabFormer数据 支持 不支持 python -m dataset_librarian.dataset -n tabformer --download
dureader-vis DuReader-vis,用于文档自动化。百度搜索引擎的中文开放域文档视觉问答(Open-Domain DocVQA)数据集,包含约15K个问答对和158K个文档图像。 支持 不支持 python -m dataset_librarian.dataset -n dureader-vis --download
msmarco MS MARCO 是一个专注于搜索深度学习的数据集集合。 支持 不支持 python -m dataset_librarian.dataset -n msmarco --download
mvtec-ad MVTEC Anomaly Detection DATASET 用于工业检查。它包含超过 5000 张不同对象和纹理类别的超高分辨率图像。 支持 支持 python -m dataset_librarian.dataset -n mvtec-ad --download --preprocess -d <path to the dataset directory>

命令行界面

输入参数 描述
--list (-l) 列出支持的数据集。
--name (-n) 数据集名称
--directory (-d) 在您的系统中保存原始数据集的目录位置。也是预处理数据集文件将写入的位置。如果未设置,将创建一个以数据集名称命名的目录。
--download 下载指定的数据集。
--preprocess 如果支持,则预处理数据集。
--split_ratio 测试数据的分割比例,默认值为 0.1。

Python API

from dataset_librarian.dataset_api.download import download_dataset
from dataset_librarian.dataset_api.preprocess import preprocess_dataset

# Download the datasets
download_dataset('brca', <path to the raw dataset directory>)

# Preprocess the datasets
preprocess_dataset('brca', <path to the raw dataset directory>)

从源构建

克隆 Intel® 架构模型库 仓库,并导航到 dataset_api 目录。

git clone https://github.com/IntelAI/models.git
cd models/datasets/dataset_api
python -m pip install --upgrade pip build setuptools wheel
python -m pip install .

项目详情


下载文件

下载您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

dataset_librarian-1.0.4.tar.gz (29.8 kB 查看散列值)

上传时间

构建分布

dataset_librarian-1.0.4-py3-none-any.whl (21.0 kB 查看散列值)

上传时间 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面