跳转到主要内容

一个Python API,使数据消费者和提供者能够轻松使用和共享数据集,并建立数据资产交换的标准。

项目描述

PyPI PyPI - Python Version PyPI - Implementation Gitter Runtime Tests Lint Docs Development Environment

ParData(与“partake”同音)是一个Python API,使数据消费者和提供者能够轻松使用和共享数据集,并建立数据资产交换的标准。它使

  • 数据科学家能够以更简单、更统一的方式开始与各种数据集一起工作,并且

  • 数据提供者能够以一致、安全且开源的方式与感兴趣的社会群体共享数据集。

安装包及其依赖项

要安装ParData的最新版本,请运行

$ pip install pardata

或者,如果您已下载源代码,请切换到源代码目录(与该README文件相同的目录,cd /path/to/pardata-source)并运行

$ pip install -U .

快速入门

导入包并加载数据集。如果尚未下载,ParData将下载WikiText-103数据集(版本1.0.1),然后加载数据集。

import pardata
wikitext103_data = pardata.load_dataset('wikitext103')

查看可用的ParData数据集及其版本。

>>> pardata.list_all_datasets()
{'claim_sentences_search': ('1.0.2',), ..., 'wikitext103': ('1.0.1',)}

要查看ParData的全局配置,例如默认数据目录,请使用 pardata.get_config

>>> pardata.get_config()
Config(DATADIR=PosixPath('dir/to/download/load/from'), ..., DATASET_SCHEMA_FILE_URL='file/to/load/datasets/from')

默认情况下,pardata.load_dataset 会下载到并从 ~/.pardata/data/<dataset-name>/<dataset-version>/ 加载。要更改默认数据目录,请使用 pardata.init

pardata.init(DATADIR='new/dir/to/download/load/from')

使用 pardata.load_dataset 加载先前下载的数据集。在设置了新的默认数据目录后,ParData 现在将在 new/dir/to/download/load/from/gmb/1.0.2/ 中搜索 Groningen Meaning Bank 数据集(版本 1.0.2)。

gmb_data = load_dataset('gmb', version='1.0.2', download=False)  # assuming GMB dataset was already downloaded

要了解更多关于 ParData 的信息,请查看 文档教程

项目详情


下载文件

下载适合您平台的自定义文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。

源代码分发

pardata-0.4.0.tar.gz (13.2 MB 查看哈希值)

上传时间 源代码

构建分发

pardata-0.4.0-py3-none-any.whl (45.1 kB 查看哈希值)

上传时间 Python 3

由以下支持