跳转到主要内容

为Project Pythia示例/notebooks提供访问数据仓库的实用函数

项目描述

CI GitHub Workflow Status GitHub Workflow Status Code Coverage Status
文档 Documentation Status
Conda PyPI
许可 License

pythia-datasets

Project Pythia示例/notebooks的数据仓库

样本数据集

这些文件用作Pythia项目示例/notebooks的样本数据,并由pythia_datasets包下载

  • NARR_19930313_0000.nc
  • enso_data.csv
  • jan-17-co-asos.txt.xz
  • CESM2_sst_data.nc
  • CESM2_grid_variables.nc

添加新数据集

要添加新的数据集文件,请按照以下步骤操作

  1. 将数据集文件添加到data/目录
  2. 从命令行运行python make_registry.py脚本以更新位于pythia_datasets/registry.txt中的注册文件
  3. 将更改提交并推送到GitHub

在笔记本和/或脚本中使用数据集

  • 确保您的环境中已安装pythia_datasets

    python -m pip install pythia-datasets
    
    # or
    
    python -m pip install git+https://github.com/ProjectPythia/pythia-datasets
    
  • 导入DATASETS并检查注册表以查找可用的数据集

    In [1]: from pythia_datasets import DATASETS
    
    In [2]: DATASETS.registry_files
    Out[2]: ['jan-17-co-asos.txt.xz', 'NARR_19930313_0000.nc']
    
  • 要获取感兴趣的数据文件,请使用.fetch方法并提供数据文件名。这将

    • 如果文件不存在,则下载并缓存文件。
    • 检索并返回本地路径
    In [4]: filepath = DATASETS.fetch('jan-17-co-asos.txt.xz')
    
    In [5]: filepath
    Out[5]: '/Users/abanihi/Library/Caches/pythia-datasets/jan-17-co-asos.txt.xz'
    
  • 一旦您有了本地文件路径,您就可以使用它将数据集加载到pandas、xarray或您选择的任何包中

    In [6]: df = pd.read_csv(filepath)
    

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

pythia-datasets-2021.9.21.tar.gz (12.0 kB 查看散列)

上传时间

构建分布

pythia_datasets-2021.9.21-py3-none-any.whl (8.7 kB 查看散列)

上传时间 Python 3

支持者:

AWSAWS云计算和安全赞助商DatadogDatadog监控FastlyFastlyCDNGoogleGoogle下载分析MicrosoftMicrosoftPSF赞助商PingdomPingdom监控SentrySentry错误日志StatusPageStatusPage状态页面