通用地消费和分配数据集。
项目描述
Nourish是一个Python API,它使得数据消费者和分发者能够轻松地使用和共享数据集,并建立了一个交换数据资产的标准。它允许
数据科学家以更简单、更统一的方式开始使用各种数据集,并且
数据分发者以一致、安全和开源的方式与感兴趣的社区共享数据集。
安装软件包及其依赖项
要安装Nourish的最新版本,请运行
$ pip install nourish
或者,如果您已下载源代码,切换到源目录(与该README文件相同的目录,cd /path/to/nourish-source)并运行
$ pip install -U .
快速入门
导入包并加载数据集。如果尚未下载,Nourish将下载WikiText-103数据集(版本1.0.1),然后加载它。
import nourish
wikitext103_data = nourish.load_dataset('wikitext103')
查看可用的Nourish数据集及其版本。
>>> nourish.list_all_datasets()
{'claim_sentences_search': ('1.0.2',), ..., 'wikitext103': ('1.0.1',)}
要查看全局设置的Nourish配置,例如默认数据目录,请使用nourish.get_config。
>>> nourish.get_config()
Config(DATADIR=PosixPath('dir/to/dowload/load/from'), ..., DATASET_SCHEMA_URL='file/to/load/datasets/from')
默认情况下,nourish.load_dataset将下载到并从~/.nourish/data/<dataset-name>/<dataset-version>/加载。要更改默认数据目录,请使用nourish.init。
nourish.init(DATADIR='new/dir/to/dowload/load/from')
使用 nourish.load_dataset 加载先前下载的数据集。在新默认数据目录设置下,Nourish 现在将在 new/dir/to/dowload/load/from/gmb/1.0.2/ 中搜索 Groningen Meaning Bank 数据集(版本 1.0.2)。
gmb_data = load_dataset('gmb', version='1.0.2', download=False) # assuming GMB dataset was already downloaded
笔记本
要更全面地了解 Nourish 功能,请查看这些笔记本
项目详情
下载文件
下载适合您平台的自定义文件。如果您不确定选择哪个,请了解更多关于 安装软件包 的信息。
源分布
nourish-0.1a2.tar.gz (136.7 kB 查看散列值)
构建分布
nourish-0.1a2-py3-none-any.whl (42.3 kB 查看散列值)