使用dirty categories进行机器学习。
项目描述
dirty_cat 是一个Python库,它简化了在脏分类变量上的机器学习。
有关编码脏类别数据的详细说明,请参阅用于学习脏类别变量的相似性编码 [1]和编码高基数字符串类别变量 [2]。
如果您喜欢这个包,请广为传播,并⭐ 仓库!
dirty_cat能做什么?
dirty_cat提供了工具(TableVectorizer,fuzzy_join…)和编码器(GapEncoder,MinHashEncoder…)来处理形态相似性,我们通常识别出三种常见情况:相似性、拼写错误和变化
第一个示例笔记本深入探讨了如何使用dirty_cat库识别和处理脏数据。
dirty_cat不能做什么
目前不支持语义相似性。例如,car和automobile之间的相似性超出了这里实现的方法。
这类问题可以通过自然语言处理方法来解决。
dirty_cat仍然可以帮助处理这类设置中的拼写错误和变化。
安装
dirty_cat可以通过pip轻松安装
pip install dirty_cat
依赖项
依赖项和最小版本在setup文件中列出。
贡献
如果您想鼓励开发dirty_cat,最好的方法是广为传播!
如果您在使用dirty_cat时遇到问题,请打开问题和/或提交拉取请求。不要犹豫,您正在帮助使这个项目对每个人来说都变得更好!
其他资源
参考文献
项目详情
下载文件
下载您平台对应的文件。如果您不确定该选择哪个,请了解更多关于 安装包 的信息。
源分布
dirty_cat-0.4.1.tar.gz (106.1 kB 查看哈希值)
构建分布
dirty_cat-0.4.1-py3-none-any.whl (125.8 kB 查看哈希值)