访问DAX数据集。
项目描述
PyDAX是一个Python API,允许数据消费者和提供者轻松使用和共享数据集,并建立数据资产交换的标准。它允许
数据科学家以更简单、更统一的方式开始与各种数据集进行工作,
数据提供者以一致、安全、开源的方式与感兴趣的社区共享数据集。
安装软件包及其依赖项
要安装PyDAX的最新版本,运行
$ pip install pydax
或者,如果您已下载源代码,请切换到源代码目录(与此README文件相同的目录,cd /path/to/pydax-source)并运行
$ pip install -U .
快速开始
导入包并加载数据集。如果尚未下载,PyDAX将下载WikiText-103数据集(版本1.0.1),然后加载它。
import pydax
wikitext103_data = pydax.load_dataset('wikitext103')
查看可用的PyDAX数据集及其版本。
>>> pydax.list_all_datasets()
{'claim_sentences_search': ('1.0.2',), ..., 'wikitext103': ('1.0.1',)}
要查看PyDAX的全局设置配置,例如默认数据目录,请使用pydax.get_config。
>>> pydax.get_config()
Config(DATADIR=PosixPath('dir/to/download/load/from'), ..., DATASET_SCHEMA_FILE_URL='file/to/load/datasets/from')
默认情况下,pydax.load_dataset将下载到并从~/.pydax/data/<dataset-name>/<dataset-version>/加载。要更改默认数据目录,请使用pydax.init。
pydax.init(DATADIR='new/dir/to/download/load/from')
使用pydax.load_dataset加载先前下载的数据集。设置新的默认数据目录后,PyDAX现在在new/dir/to/download/load/from/gmb/1.0.2/中搜索Groningen Meaning Bank数据集(版本1.0.2)。
gmb_data = load_dataset('gmb', version='1.0.2', download=False) # assuming GMB dataset was already downloaded
项目详情
下载文件
下载适用于您平台文件的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分发
pydax-0.2.0.tar.gz (12.6 MB 查看散列)
构建分发
pydax-0.2.0-py3-none-any.whl (43.7 kB 查看散列)
关闭
pydax-0.2.0.tar.gz的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 36396cce7dac017b52fae34c578bc06a23c3bceb03436e7ecd6d61b41bd6ea8c |
|
MD5 | 00dca87e7ad557ee8563d5e601efb921 |
|
BLAKE2b-256 | 71ea969dcc43c99eaf9eedeec141f652c3a4b3ed55bb25ab3b45db726ebdb745 |
关闭
pydax-0.2.0-py3-none-any.whl的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 9167a467f001e9323d32543148c6e33dffebc7120a475f8915baf4b3cfea5772 |
|
MD5 | 94c3c2769d9a235c8ad33893588061ca |
|
BLAKE2b-256 | 9dfb17916eb2d28eab8c1e37aff8a86c8ba56100ed1189ca4ebf360901ee8924 |