为机器学习准备表格
项目描述
skrub(原名 dirty_cat)是一个Python库,它简化了为机器学习准备表格的过程。
如果你喜欢这个包,请分享并⭐这个存储库!你还可以加入discord服务器。
skrub能做什么?
skrub的目标是弥合表格数据源和机器学习模型之间的差距。
skrub提供了高级工具,用于连接数据框(Joiner,AggJoiner等),编码列(MinHashEncoder,ToCategorical等),构建管道(TableVectorizer,tabular_learner等),以及其他更多功能。
>>> from skrub.datasets import fetch_employee_salaries >>> dataset = fetch_employee_salaries() >>> df = dataset.X >>> y = dataset.y >>> df.iloc[0] gender F department POL department_name Department of Police division MSB Information Mgmt and Tech Division Records... assignment_category Fulltime-Regular employee_position_title Office Services Coordinator date_first_hired 09/22/1986 year_first_hired 1986
>>> from sklearn.model_selection import cross_val_score >>> from skrub import tabular_learner >>> cross_val_score(tabular_learner('regressor'), df, y) array([0.89370447, 0.89279068, 0.92282557, 0.92319094, 0.92162666])
查看我们的示例。
安装
skrub可以通过pip或conda轻松安装。有关更多信息,请参阅安装说明。
贡献
支持skrub开发的最有效方法是传播信息!
此外,如果你已经是skrub用户,我们非常乐意在讨论部分了解你的用例和挑战。
要报告错误或提出改进建议,请创建一个问题和/或提交一个pull请求。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
skrub-0.3.1.tar.gz (6.3 MB 查看哈希值)
构建分布
skrub-0.3.1-py3-none-any.whl (304.2 kB 查看哈希值)
关闭
skrub-0.3.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b745cca583732f23c9d410e2ca220f4f3bddb71e6549925ab89aa6ee9d3d55a5 |
|
MD5 | b2050a91106383605640b763c1fd5cdb |
|
BLAKE2b-256 | 0efed9d6be2e27e939ed8b6f68f846b2da438653af74b232039ef3cf9d1291b8 |