跳转到主要内容

一个用于准确和可扩展的数据去重和实体识别的Python库

项目描述

Dedupe Python库

Tests Passingcodecov

dedupe是一个Python库,使用机器学习在结构化数据上快速进行模糊匹配、去重和实体识别。

dedupe将帮助您

  • 从姓名和地址的电子表格中删除重复条目
  • 将包含客户信息的列表与包含订单历史的另一个列表链接起来,即使没有唯一的客户ID
  • 分析活动捐款数据库并找出由同一人做出的捐款,即使每条记录中输入的姓名略有不同

dedupe通过接受人工训练数据,为您的数据集生成最佳规则,快速自动查找相似记录,即使在非常大的数据库中也是如此。

重要链接

dedupe库咨询

如果您或您的组织希望获得在dedupe库中工作的专业帮助,Dedupe.io LLC提供咨询服务。在此了解有关价格和可用服务的更多信息

使用dedupe构建的工具

Dedupe.io

Dedupe.io是一个由dedupe库驱动的云服务,用于去重和查找数据中的匹配项。它提供了一个逐步向导,用于上传您的数据、设置模型、训练、聚类和审查结果。

Dedupe.io还支持跨数据源的记录链接和通过API的持续匹配和训练。

有关更多信息,请参阅Dedupe.io产品网站使用教程以及它与dedupe库之间的差异

Dedupe在Python社区中得到了广泛应用。请参阅这篇博客文章、关于如何使用Dedupe与Python的YouTube视频以及关于如何使用Spark在大规模使用Dedupe的YouTube视频。

csvdedupe

命令行工具,用于去重和链接CSV文件。在Source Knight-Mozilla OpenNews上了解更多信息。

安装

使用dedupe

如果您只想使用dedupe,请按以下方式安装

pip install dedupe

熟悉dedupe的API,并开始您的项目。需要灵感?请查看一些示例

开发dedupe

我们建议使用virtualenvvirtualenvwrapper在虚拟开发环境中工作。阅读有关设置virtualenv的说明

一旦您设置了virtualenvwrapper,

mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt

如果这些测试通过,则表示一切已正确安装!

pytest

之后,每当您想要在dedupe上工作时,

workon dedupe

测试

核心dedupe函数的单元测试

pytest

使用Bilenko的研究中的标准数据集进行测试

使用去重

python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py

使用记录链接

python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py

团队

  • Forest Gregg,DataMade
  • Derek Eder,DataMade

鸣谢

Dedupe基于Mikhail Yuryevich Bilenko的博士论文:可学习相似性函数及其在记录链接和聚类中的应用

错误/缺陷

如果某些行为不符合直观,则表示存在缺陷,应予以报告。在此报告

有关补丁/拉取请求的说明

  • 分叉项目。
  • 创建您的功能添加或缺陷修复。
  • 向我们发送拉取请求。主题分支将获得额外加分。

版权

版权所有(c)2022 Forest Gregg和Derek Eder。在MIT许可证下发布。查看许可证

在此分发中注明了适用的第三方版权。

引用Dedupe

如果您在学术工作中使用了Dedupe,请提供以下引用

Forest Gregg 和 Derek Eder. 2022. Dedupe. https://github.com/dedupeio/dedupe.

项目详情


发布历史 发布通知 | RSS源

下载文件

下载适用于您平台的文件。如果您不确定选择哪一个,请了解更多关于安装包的信息

源代码分发

dedupe-3.0.3.tar.gz (107.4 kB 查看哈希值)

上传时间 源代码

构建分发

dedupe-3.0.3-pp310-pypy310_pp73-win_amd64.whl (120.9 kB 查看哈希值)

上传时间 PyPy Windows x86-64

dedupe-3.0.3-pp310-pypy310_pp73-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (122.7 kB 查看哈希值)

上传时间 PyPy manylinux: glibc 2.17+ x86-64 manylinux: glibc 2.5+ x86-64

dedupe-3.0.3-pp310-pypy310_pp73-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (124.3 kB 查看哈希值)

上传时间 PyPy manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

dedupe-3.0.3-pp310-pypy310_pp73-macosx_11_0_arm64.whl (118.7 kB 查看哈希值)

上传时间 PyPy macOS 11.0+ ARM64

dedupe-3.0.3-pp310-pypy310_pp73-macosx_10_15_x86_64.whl (118.5 kB 查看哈希值)

上传时间 PyPy macOS 10.15+ x86-64

dedupe-3.0.3-pp39-pypy39_pp73-win_amd64.whl (120.9 kB 查看哈希值)

上传时间 PyPy Windows x86-64

dedupe-3.0.3-pp39-pypy39_pp73-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (122.7 kB 查看哈希值)

上传时间 PyPy manylinux: glibc 2.17+ x86-64 manylinux: glibc 2.5+ x86-64

dedupe-3.0.3-pp39-pypy39_pp73-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (124.3 kB 查看哈希值)

上传时间 PyPy manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

dedupe-3.0.3-pp39-pypy39_pp73-macosx_11_0_arm64.whl (118.7 kB 查看哈希值)

上传于 PyPy macOS 11.0+ ARM64

dedupe-3.0.3-pp39-pypy39_pp73-macosx_10_15_x86_64.whl (118.5 kB 查看哈希值)

上传于 PyPy macOS 10.15+ x86-64

dedupe-3.0.3-pp38-pypy38_pp73-win_amd64.whl (120.2 kB 查看哈希值)

上传于 PyPy Windows x86-64

dedupe-3.0.3-pp38-pypy38_pp73-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (122.0 kB 查看哈希值)

上传于 PyPy manylinux: glibc 2.17+ x86-64 manylinux: glibc 2.5+ x86-64

dedupe-3.0.3-pp38-pypy38_pp73-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (122.6 kB 查看哈希值)

上传于 PyPy manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

dedupe-3.0.3-pp38-pypy38_pp73-macosx_11_0_arm64.whl (118.0 kB 查看哈希值)

上传于 PyPy macOS 11.0+ ARM64

dedupe-3.0.3-pp38-pypy38_pp73-macosx_10_9_x86_64.whl (117.6 kB 查看哈希值)

上传于 PyPy macOS 10.9+ x86-64

dedupe-3.0.3-cp313-cp313-win_amd64.whl (122.7 kB 查看哈希值)

上传于 CPython 3.13 Windows x86-64

dedupe-3.0.3-cp313-cp313-win32.whl (120.3 kB 查看哈希值)

上传于 CPython 3.13 Windows x86

dedupe-3.0.3-cp313-cp313-musllinux_1_2_x86_64.whl (217.4 kB 查看哈希值)

上传于 CPython 3.13 musllinux: musl 1.2+ x86-64

dedupe-3.0.3-cp313-cp313-musllinux_1_2_i686.whl (208.8 kB 查看哈希值)

上传于 CPython 3.13 musllinux: musl 1.2+ i686

dedupe-3.0.3-cp313-cp313-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (218.3 kB 查看哈希值)

上传于 CPython 3.13 manylinux: glibc 2.17+ x86-64 manylinux: glibc 2.5+ x86-64

dedupe-3.0.3-cp313-cp313-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (209.1 kB 查看哈希值)

上传于 CPython 3.13 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

dedupe-3.0.3-cp313-cp313-macosx_11_0_arm64.whl (121.4 kB 查看哈希值)

上传于 CPython 3.13 macOS 11.0+ ARM64

dedupe-3.0.3-cp313-cp313-macosx_10_13_x86_64.whl (121.3 kB 查看哈希值)

上传于 CPython 3.13 macOS 10.13+ x86-64

dedupe-3.0.3-cp313-cp313-macosx_10_13_universal2.whl (138.9 kB 查看哈希值)

上传于 CPython 3.13 macOS 10.13+ universal2 (ARM64, x86-64)

dedupe-3.0.3-cp312-cp312-win_amd64.whl (123.6 kB 查看哈希值)

上传于 CPython 3.12 Windows x86-64

dedupe-3.0.3-cp312-cp312-win32.whl (120.9 kB 查看哈希值)

上传于 CPython 3.12 Windows x86

dedupe-3.0.3-cp312-cp312-musllinux_1_2_x86_64.whl (223.2 kB 查看哈希值)

上传于 CPython 3.12 musllinux: musl 1.2+ x86-64

dedupe-3.0.3-cp312-cp312-musllinux_1_2_i686.whl (215.2 kB 查看哈希值)

上传于 CPython 3.12 musllinux: musl 1.2+ i686

dedupe-3.0.3-cp312-cp312-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (224.5 kB 查看哈希值)

上传于 CPython 3.12 manylinux: glibc 2.17+ x86-64 manylinux: glibc 2.5+ x86-64

dedupe-3.0.3-cp312-cp312-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (215.4 kB 查看哈希值)

上传于 CPython 3.12 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

dedupe-3.0.3-cp312-cp312-macosx_11_0_arm64.whl (122.1 kB 查看哈希值)

上传于 CPython 3.12 macOS 11.0+ ARM64

dedupe-3.0.3-cp312-cp312-macosx_10_9_x86_64.whl (121.9 kB 查看哈希值)

上传于 CPython 3.12 macOS 10.9+ x86-64

dedupe-3.0.3-cp312-cp312-macosx_10_9_universal2.whl (140.3 kB 查看哈希值)

上传于 CPython 3.12 macOS 10.9+ universal2 (ARM64, x86-64)

dedupe-3.0.3-cp311-cp311-win_amd64.whl (123.3 kB 查看哈希值)

上传于 CPython 3.11 Windows x86-64

dedupe-3.0.3-cp311-cp311-win32.whl (120.8 kB 查看哈希值)

上传于 CPython 3.11 Windows x86

dedupe-3.0.3-cp311-cp311-musllinux_1_2_x86_64.whl (216.4 kB 查看哈希值)

上传于 CPython 3.11 musllinux: musl 1.2+ x86-64

dedupe-3.0.3-cp311-cp311-musllinux_1_2_i686.whl (210.6 kB 查看哈希值)

上传于 CPython 3.11 musllinux: musl 1.2+ i686

dedupe-3.0.3-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (219.1 kB 查看哈希值)

上传时间 CPython 3.11 manylinux: glibc 2.17+ x86-64 manylinux: glibc 2.5+ x86-64

dedupe-3.0.3-cp311-cp311-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (209.9 kB 查看哈希值)

上传时间 CPython 3.11 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

dedupe-3.0.3-cp311-cp311-macosx_11_0_arm64.whl (121.9 kB 查看哈希值)

上传时间 CPython 3.11 macOS 11.0+ ARM64

dedupe-3.0.3-cp311-cp311-macosx_10_9_x86_64.whl (121.8 kB 查看哈希值)

上传时间 CPython 3.11 macOS 10.9+ x86-64

dedupe-3.0.3-cp311-cp311-macosx_10_9_universal2.whl (140.0 kB 查看哈希值)

上传时间 CPython 3.11 macOS 10.9+ universal2 (ARM64, x86-64)

dedupe-3.0.3-cp310-cp310-win_amd64.whl (123.2 kB 查看哈希值)

上传时间 CPython 3.10 Windows x86-64

dedupe-3.0.3-cp310-cp310-win32.whl (120.9 kB 查看哈希值)

上传时间 CPython 3.10 Windows x86

dedupe-3.0.3-cp310-cp310-musllinux_1_2_x86_64.whl (204.3 kB 查看哈希值)

上传时间 CPython 3.10 musllinux: musl 1.2+ x86-64

dedupe-3.0.3-cp310-cp310-musllinux_1_2_i686.whl (200.9 kB 查看哈希值)

上传时间 CPython 3.10 musllinux: musl 1.2+ i686

dedupe-3.0.3-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (206.6 kB 查看哈希值)

上传时间 CPython 3.10 manylinux: glibc 2.17+ x86-64 manylinux: glibc 2.5+ x86-64

dedupe-3.0.3-cp310-cp310-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (200.8 kB 查看哈希值)

上传时间: CPython 3.10 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

dedupe-3.0.3-cp310-cp310-macosx_11_0_arm64.whl (122.0 kB 查看哈希值)

上传时间: CPython 3.10 macOS 11.0+ ARM64

dedupe-3.0.3-cp310-cp310-macosx_10_9_x86_64.whl (121.8 kB 查看哈希值)

上传时间: CPython 3.10 macOS 10.9+ x86-64

dedupe-3.0.3-cp310-cp310-macosx_10_9_universal2.whl (140.2 kB 查看哈希值)

上传时间: CPython 3.10 macOS 10.9+ universal2 (ARM64, x86-64)

dedupe-3.0.3-cp39-cp39-win_amd64.whl (123.2 kB 查看哈希值)

上传时间: CPython 3.9 Windows x86-64

dedupe-3.0.3-cp39-cp39-win32.whl (120.9 kB 查看哈希值)

上传时间: CPython 3.9 Windows x86

dedupe-3.0.3-cp39-cp39-musllinux_1_2_x86_64.whl (203.9 kB 查看哈希值)

上传时间: CPython 3.9 musllinux: musl 1.2+ x86-64

dedupe-3.0.3-cp39-cp39-musllinux_1_2_i686.whl (200.5 kB 查看哈希值)

上传时间: CPython 3.9 musllinux: musl 1.2+ i686

dedupe-3.0.3-cp39-cp39-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (206.3 kB 查看哈希值)

上传时间: CPython 3.9 manylinux: glibc 2.17+ x86-64 manylinux: glibc 2.5+ x86-64

dedupe-3.0.3-cp39-cp39-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (200.4 kB 查看哈希值)

上传于 CPython 3.9 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

dedupe-3.0.3-cp39-cp39-macosx_11_0_arm64.whl (122.0 kB 查看哈希值)

上传于 CPython 3.9 macOS 11.0+ ARM64

dedupe-3.0.3-cp39-cp39-macosx_10_9_x86_64.whl (121.8 kB 查看哈希值)

上传于 CPython 3.9 macOS 10.9+ x86-64

dedupe-3.0.3-cp39-cp39-macosx_10_9_universal2.whl (140.2 kB 查看哈希值)

上传于 CPython 3.9 macOS 10.9+ universal2 (ARM64, x86-64)

dedupe-3.0.3-cp38-cp38-win_amd64.whl (123.2 kB 查看哈希值)

上传于 CPython 3.8 Windows x86-64

dedupe-3.0.3-cp38-cp38-win32.whl (120.9 kB 查看哈希值)

上传于 CPython 3.8 Windows x86

dedupe-3.0.3-cp38-cp38-musllinux_1_2_x86_64.whl (203.6 kB 查看哈希值)

上传于 CPython 3.8 musllinux: musl 1.2+ x86-64

dedupe-3.0.3-cp38-cp38-musllinux_1_2_i686.whl (200.0 kB 查看哈希值)

上传于 CPython 3.8 musllinux: musl 1.2+ i686

dedupe-3.0.3-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (206.4 kB 查看哈希值)

上传于 CPython 3.8 manylinux: glibc 2.17+ x86-64 manylinux: glibc 2.5+ x86-64

dedupe-3.0.3-cp38-cp38-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (200.0 kB 查看哈希值)

上传于 CPython 3.8 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

dedupe-3.0.3-cp38-cp38-macosx_11_0_arm64.whl (122.0 kB 查看哈希值)

上传于 CPython 3.8 macOS 11.0+ ARM64

dedupe-3.0.3-cp38-cp38-macosx_10_9_x86_64.whl (121.8 kB 查看哈希)

上传于 CPython 3.8 macOS 10.9+ x86-64

dedupe-3.0.3-cp38-cp38-macosx_10_9_universal2.whl (140.1 kB 查看哈希)

上传于 CPython 3.8 macOS 10.9+ universal2 (ARM64, x86-64)

由以下机构支持

AWSAWS云计算和安全赞助商 DatadogDatadog监控 FastlyFastlyCDN GoogleGoogle下载分析 MicrosoftMicrosoftPSF 赞助商 PingdomPingdom监控 SentrySentry错误记录 StatusPageStatusPage状态页面