这是一个用于准确和可扩展的数据去重和实体解析的Python库
项目描述
dedupe是一个库,使用机器学习在结构化数据上快速执行去重和实体解析。dedupe是dedupe.io的开源引擎
dedupe将帮助您
从姓名和地址的工作表中移除重复条目
将客户信息列表与订单历史记录列表链接起来,即使没有唯一的客户ID
从活动捐赠数据库中获取信息,并确定哪些是由同一人捐赠的,即使每个记录中的姓名输入略有不同
dedupe接受人类训练数据,并为您的数据集提供最佳规则,以便快速自动找到相似记录,即使是非常大的数据库。
项目详情
关闭
哈希值 for dedupe_fh-1.9.7-cp27-cp27m-macosx_10_14_intel.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 149b96323588852fc9f787d4a4691c685979e1f4b204c03b2b90ec6e9eac09f8 |
|
MD5 | 8d2b5b90fd05c393d88449087e8dbc66 |
|
BLAKE2b-256 | 6c52f38ba54a017c24fde8936fd71df34033057e163e87582c492736f95665f1 |