跳转到主要内容

通用地消费和分配数据集。

项目描述

PyPI PyPI - Python Version PyPI - Implementation Gitter Runtime Tests Lint Docs Development Environment Coverage

Nourish是一个Python API,它使得数据消费者和分发者能够轻松地使用和共享数据集,并建立了一个交换数据资产的标准。它允许

  • 数据科学家以更简单、更统一的方式开始使用各种数据集,并且

  • 数据分发者以一致、安全和开源的方式与感兴趣的社区共享数据集。

安装软件包及其依赖项

要安装Nourish的最新版本,请运行

$ pip install nourish

或者,如果您已下载源代码,切换到源目录(与该README文件相同的目录,cd /path/to/nourish-source)并运行

$ pip install -U .

快速入门

导入包并加载数据集。如果尚未下载,Nourish将下载WikiText-103数据集(版本1.0.1),然后加载它。

import nourish
wikitext103_data = nourish.load_dataset('wikitext103')

查看可用的Nourish数据集及其版本。

>>> nourish.list_all_datasets()
{'claim_sentences_search': ('1.0.2',), ..., 'wikitext103': ('1.0.1',)}

要查看全局设置的Nourish配置,例如默认数据目录,请使用nourish.get_config

>>> nourish.get_config()
Config(DATADIR=PosixPath('dir/to/dowload/load/from'), ..., DATASET_SCHEMA_URL='file/to/load/datasets/from')

默认情况下,nourish.load_dataset将下载到并从~/.nourish/data/<dataset-name>/<dataset-version>/加载。要更改默认数据目录,请使用nourish.init

nourish.init(DATADIR='new/dir/to/dowload/load/from')

使用 nourish.load_dataset 加载先前下载的数据集。在新默认数据目录设置下,Nourish 现在将在 new/dir/to/dowload/load/from/gmb/1.0.2/ 中搜索 Groningen Meaning Bank 数据集(版本 1.0.2)。

gmb_data = load_dataset('gmb', version='1.0.2', download=False)  # assuming GMB dataset was already downloaded

笔记本

要更全面地了解 Nourish 功能,请查看这些笔记本

项目详情


下载文件

下载适合您平台的自定义文件。如果您不确定选择哪个,请了解更多关于 安装软件包 的信息。

源分布

nourish-0.1a2.tar.gz (136.7 kB 查看散列值)

上传时间

构建分布

nourish-0.1a2-py3-none-any.whl (42.3 kB 查看散列值)

上传时间 Python 3

由...