跳转到主要内容

为机器学习准备表格

项目描述

skrub logo

py_ver pypi_var pypi_dl codecov circleci black

skrub(原名 dirty_cat)是一个Python库,它简化了为机器学习准备表格的过程。

如果你喜欢这个包,请分享并⭐这个存储库!你还可以加入discord服务器

网站: https://skrub-data.org/

skrub能做什么?

skrub的目标是弥合表格数据源和机器学习模型之间的差距。

skrub提供了高级工具,用于连接数据框(JoinerAggJoiner等),编码列(MinHashEncoderToCategorical等),构建管道(TableVectorizertabular_learner等),以及其他更多功能。

>>> from skrub.datasets import fetch_employee_salaries
>>> dataset = fetch_employee_salaries()
>>> df = dataset.X
>>> y = dataset.y
>>> df.iloc[0]
gender                                                                     F
department                                                               POL
department_name                                         Department of Police
division                   MSB Information Mgmt and Tech Division Records...
assignment_category                                         Fulltime-Regular
employee_position_title                          Office Services Coordinator
date_first_hired                                                  09/22/1986
year_first_hired                                                        1986
>>> from sklearn.model_selection import cross_val_score
>>> from skrub import tabular_learner
>>> cross_val_score(tabular_learner('regressor'), df, y)
array([0.89370447, 0.89279068, 0.92282557, 0.92319094, 0.92162666])

查看我们的示例

安装

skrub可以通过pip或conda轻松安装。有关更多信息,请参阅安装说明

贡献

支持skrub开发的最有效方法是传播信息!

此外,如果你已经是skrub用户,我们非常乐意在讨论部分了解你的用例和挑战。

要报告错误或提出改进建议,请创建一个问题和/或提交一个pull请求

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

skrub-0.3.1.tar.gz (6.3 MB 查看哈希值

上传时间:

构建分布

skrub-0.3.1-py3-none-any.whl (304.2 kB 查看哈希值

上传时间: Python 3

由以下支持