跳转到主要内容

这是一个用于准确和可扩展的数据去重和实体解析的Python库

项目描述

dedupe是一个库,使用机器学习在结构化数据上快速执行去重和实体解析。dedupe是dedupe.io的开源引擎

dedupe将帮助您

  • 从姓名和地址的工作表中移除重复条目

  • 将客户信息列表与订单历史记录列表链接起来,即使没有唯一的客户ID

  • 从活动捐赠数据库中获取信息,并确定哪些是由同一人捐赠的,即使每个记录中的姓名输入略有不同

dedupe接受人类训练数据,并为您的数据集提供最佳规则,以便快速自动找到相似记录,即使是非常大的数据库。

项目详情


下载文件

下载您平台对应的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分发

dedupe-fh-1.9.7.tar.gz (59.4 kB 查看哈希值)

上传时间 源代码

构建分发

dedupe_fh-1.9.7-cp27-cp27m-macosx_10_14_intel.whl (53.4 kB 查看哈希值)

上传时间 CPython 2.7m macOS 10.14+ intel

支持者

AWSAWS云计算和安全赞助商DatadogDatadog监控FastlyFastlyCDNGoogleGoogle下载分析MicrosoftMicrosoftPSF赞助商PingdomPingdom监控SentrySentry错误日志StatusPageStatusPage状态页面