跳转到主要内容

访问DAX数据集。

项目描述

PyPI PyPI - Python Version PyPI - Implementation Gitter Runtime Tests Lint Docs Development Environment

PyDAX是一个Python API,允许数据消费者和提供者轻松使用和共享数据集,并建立数据资产交换的标准。它允许

  • 数据科学家以更简单、更统一的方式开始与各种数据集进行工作,

  • 数据提供者以一致、安全、开源的方式与感兴趣的社区共享数据集。

安装软件包及其依赖项

要安装PyDAX的最新版本,运行

$ pip install pydax

或者,如果您已下载源代码,请切换到源代码目录(与此README文件相同的目录,cd /path/to/pydax-source)并运行

$ pip install -U .

快速开始

导入包并加载数据集。如果尚未下载,PyDAX将下载WikiText-103数据集(版本1.0.1),然后加载它。

import pydax
wikitext103_data = pydax.load_dataset('wikitext103')

查看可用的PyDAX数据集及其版本。

>>> pydax.list_all_datasets()
{'claim_sentences_search': ('1.0.2',), ..., 'wikitext103': ('1.0.1',)}

要查看PyDAX的全局设置配置,例如默认数据目录,请使用pydax.get_config

>>> pydax.get_config()
Config(DATADIR=PosixPath('dir/to/download/load/from'), ..., DATASET_SCHEMA_FILE_URL='file/to/load/datasets/from')

默认情况下,pydax.load_dataset将下载到并从~/.pydax/data/<dataset-name>/<dataset-version>/加载。要更改默认数据目录,请使用pydax.init

pydax.init(DATADIR='new/dir/to/download/load/from')

使用pydax.load_dataset加载先前下载的数据集。设置新的默认数据目录后,PyDAX现在在new/dir/to/download/load/from/gmb/1.0.2/中搜索Groningen Meaning Bank数据集(版本1.0.2)。

gmb_data = load_dataset('gmb', version='1.0.2', download=False)  # assuming GMB dataset was already downloaded

要了解更多关于PyDAX的信息,请查看文档教程

项目详情


下载文件

下载适用于您平台文件的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

pydax-0.2.0.tar.gz (12.6 MB 查看散列

上传时间

构建分发

pydax-0.2.0-py3-none-any.whl (43.7 kB 查看散列

上传时间 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面