跳转到主要内容

提供超过2264个数据集,作为来自各种R包的pandas DataFrame

项目描述

pyRdatasets

PyPi Version Anaconda-Server Badge Anaconda-Server Badge

pyRdatasets是从https://github.com/vincentarelbundock/Rdatasets收集的2293个数据集的集合。这些数据集是从各种R包中提取出来的,并以gzip打包的pickle文件存储在pandas DataFrame结构中。每个数据集的描述都可以在这里找到:http://vincentarelbundock.github.io/Rdatasets/datasets.html

所有2293个数据记录都已包含在包中(无需互联网连接),该包的大小约为40 Mb。

安装

pip install rdatasets

conda install conda-forge::rdatasets

使用

>>> import rdatasets
>>> dataset = rdatasets.data("iris")
>>> dataset
     Sepal.Length  Sepal.Width  Petal.Length  Petal.Width    Species
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           1.4          0.2     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[150 rows x 5 columns]
>>> rdatasets.data("forecast", "co2")
Could not read forecast/co2
Which item did you mean: ['gas', 'gold', 'taylor', 'wineind', 'woolyrnq']?
>>> rdatasets.data("forecast", "gas")
            time  value
0    1956.000000   1709
1    1956.083333   1646
2    1956.166667   1794
3    1956.250000   1878
4    1956.333333   2173
..           ...    ...
471  1995.250000  49013
472  1995.333333  56624
473  1995.416667  61739
474  1995.500000  66600
475  1995.583333  60054

[476 rows x 2 columns]

可以通过以下方式打印数据集描述:

import rdatasets
print(rdatasets.descr("iris"))

所有数据集的摘要作为DataFrame对象提供

import rdatasets
rdatasets.summary()

感谢

与R一起分发的数据集存档:https://github.com/vincentarelbundock/Rdatasets

pre-commit配置

安装

$ pip install pre-commit

使用homebrew

$ brew install pre-commit
$ pre-commit --version
pre-commit 2.10.0

安装git钩子脚本

$ pre-commit install

针对所有文件运行

pre-commit run --all-files
pre-commit run --show-diff-on-failure --color=always --all-files

更新pre-commit yaml中的包rev

pre-commit autoupdate
pre-commit run --show-diff-on-failure --color=always --all-files

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码发行版

rdatasets-0.2.10.tar.gz (49.6 MB 查看哈希值)

上传时间 源代码

构建发行版

rdatasets-0.2.10-py3-none-any.whl (50.1 MB 查看哈希值)

上传时间 Python 3