跳转到主要内容

使用dirty categories进行机器学习。

项目描述

dirty_cat logo

py_ver pypi_var pypi_dl codecov circleci black

dirty_cat 是一个Python库,它简化了在脏分类变量上的机器学习。

有关编码脏类别数据的详细说明,请参阅用于学习脏类别变量的相似性编码 [1]编码高基数字符串类别变量 [2]

如果您喜欢这个包,请广为传播,并⭐ 仓库

dirty_cat能做什么?

dirty_cat提供了工具(TableVectorizerfuzzy_join…)和编码器(GapEncoderMinHashEncoder…)来处理形态相似性,我们通常识别出三种常见情况:相似性、拼写错误和变化

第一个示例笔记本深入探讨了如何使用dirty_cat库识别和处理脏数据。

dirty_cat不能做什么

目前不支持语义相似性。例如,carautomobile之间的相似性超出了这里实现的方法。

这类问题可以通过自然语言处理方法来解决。

dirty_cat仍然可以帮助处理这类设置中的拼写错误和变化。

安装

dirty_cat可以通过pip轻松安装

pip install dirty_cat

依赖项

依赖项和最小版本在setup文件中列出。

贡献

如果您想鼓励开发dirty_cat,最好的方法是广为传播

如果您在使用dirty_cat时遇到问题,请打开问题和/或提交拉取请求。不要犹豫,您正在帮助使这个项目对每个人来说都变得更好!

其他资源

参考文献

项目详情


下载文件

下载您平台对应的文件。如果您不确定该选择哪个,请了解更多关于 安装包 的信息。

源分布

dirty_cat-0.4.1.tar.gz (106.1 kB 查看哈希值)

上传时间

构建分布

dirty_cat-0.4.1-py3-none-any.whl (125.8 kB 查看哈希值)

上传时间 Python 3

支持