提供超过2264个数据集,作为来自各种R包的pandas DataFrame
项目描述
pyRdatasets
pyRdatasets是从https://github.com/vincentarelbundock/Rdatasets收集的2293个数据集的集合。这些数据集是从各种R包中提取出来的,并以gzip打包的pickle文件存储在pandas DataFrame结构中。每个数据集的描述都可以在这里找到:http://vincentarelbundock.github.io/Rdatasets/datasets.html
所有2293个数据记录都已包含在包中(无需互联网连接),该包的大小约为40 Mb。
安装
pip install rdatasets
或
conda install conda-forge::rdatasets
使用
>>> import rdatasets
>>> dataset = rdatasets.data("iris")
>>> dataset
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
.. ... ... ... ... ...
145 6.7 3.0 5.2 2.3 virginica
146 6.3 2.5 5.0 1.9 virginica
147 6.5 3.0 5.2 2.0 virginica
148 6.2 3.4 5.4 2.3 virginica
149 5.9 3.0 5.1 1.8 virginica
[150 rows x 5 columns]
>>> rdatasets.data("forecast", "co2")
Could not read forecast/co2
Which item did you mean: ['gas', 'gold', 'taylor', 'wineind', 'woolyrnq']?
>>> rdatasets.data("forecast", "gas")
time value
0 1956.000000 1709
1 1956.083333 1646
2 1956.166667 1794
3 1956.250000 1878
4 1956.333333 2173
.. ... ...
471 1995.250000 49013
472 1995.333333 56624
473 1995.416667 61739
474 1995.500000 66600
475 1995.583333 60054
[476 rows x 2 columns]
可以通过以下方式打印数据集描述:
import rdatasets
print(rdatasets.descr("iris"))
所有数据集的摘要作为DataFrame对象提供
import rdatasets
rdatasets.summary()
感谢
与R一起分发的数据集存档:https://github.com/vincentarelbundock/Rdatasets
pre-commit配置
安装
$ pip install pre-commit
使用homebrew
$ brew install pre-commit
$ pre-commit --version
pre-commit 2.10.0
安装git钩子脚本
$ pre-commit install
针对所有文件运行
pre-commit run --all-files
pre-commit run --show-diff-on-failure --color=always --all-files
更新pre-commit yaml中的包rev
pre-commit autoupdate
pre-commit run --show-diff-on-failure --color=always --all-files
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源代码发行版
rdatasets-0.2.10.tar.gz (49.6 MB 查看哈希值)
构建发行版
rdatasets-0.2.10-py3-none-any.whl (50.1 MB 查看哈希值)
关闭
rdatasets-0.2.10.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 01e3d5bfeaef449e09ab2c4945450a9ce4c25be53df6783d42b6fec2420ea0fd |
|
MD5 | 63f69f3315426d2f1b3c74e86723759c |
|
BLAKE2b-256 | 4b09014821e844748a753112c5e7593ddecc4fc1ad114c52324cf0bbee33ca05 |
关闭
rdatasets-0.2.10-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6fa2b311d8a30e059cba18a7b5b17e8aab7d16013d700f2754032e47718693a1 |
|
MD5 | a5342feb21dea9f5663f19105f1a9da6 |
|
BLAKE2b-256 | c0421572a692094df2631b07b6e0e196f1d2257583ea704d97470f01cf2c4f62 |