一个Python API,使数据消费者和提供者能够轻松使用和共享数据集,并建立数据资产交换的标准。
项目描述
ParData(与“partake”同音)是一个Python API,使数据消费者和提供者能够轻松使用和共享数据集,并建立数据资产交换的标准。它使
数据科学家能够以更简单、更统一的方式开始与各种数据集一起工作,并且
数据提供者能够以一致、安全且开源的方式与感兴趣的社会群体共享数据集。
安装包及其依赖项
要安装ParData的最新版本,请运行
$ pip install pardata
或者,如果您已下载源代码,请切换到源代码目录(与该README文件相同的目录,cd /path/to/pardata-source)并运行
$ pip install -U .
快速入门
导入包并加载数据集。如果尚未下载,ParData将下载WikiText-103数据集(版本1.0.1),然后加载数据集。
import pardata
wikitext103_data = pardata.load_dataset('wikitext103')
查看可用的ParData数据集及其版本。
>>> pardata.list_all_datasets()
{'claim_sentences_search': ('1.0.2',), ..., 'wikitext103': ('1.0.1',)}
要查看ParData的全局配置,例如默认数据目录,请使用 pardata.get_config。
>>> pardata.get_config()
Config(DATADIR=PosixPath('dir/to/download/load/from'), ..., DATASET_SCHEMA_FILE_URL='file/to/load/datasets/from')
默认情况下,pardata.load_dataset 会下载到并从 ~/.pardata/data/<dataset-name>/<dataset-version>/ 加载。要更改默认数据目录,请使用 pardata.init。
pardata.init(DATADIR='new/dir/to/download/load/from')
使用 pardata.load_dataset 加载先前下载的数据集。在设置了新的默认数据目录后,ParData 现在将在 new/dir/to/download/load/from/gmb/1.0.2/ 中搜索 Groningen Meaning Bank 数据集(版本 1.0.2)。
gmb_data = load_dataset('gmb', version='1.0.2', download=False) # assuming GMB dataset was already downloaded
项目详情
下载文件
下载适合您平台的自定义文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。
源代码分发
pardata-0.4.0.tar.gz (13.2 MB 查看哈希值)
构建分发
pardata-0.4.0-py3-none-any.whl (45.1 kB 查看哈希值)