一个用于生成实体指纹的库。
项目描述
fingerprints
这个库帮助生成实体数据的指纹。在这个上下文中,指纹被视为简化后的实体标识符,由其名称或地址生成,用于在不同数据集之间进行实体交叉引用。
用法
import fingerprints
fp = fingerprints.generate('Mr. Sherlock Holmes')
assert fp == 'holmes sherlock'
fp = fingerprints.generate('Siemens Aktiengesellschaft')
assert fp == 'ag siemens'
fp = fingerprints.generate('New York, New York')
assert fp == 'new york'
公司类型名称
指纹库的一个重要功能是识别公司法律形式名称。例如,指纹库可以将 Общество с ограниченной ответственностью
简化为 ООО
,或将 Aktiengesellschaft
简化为 AG
。所需数据库基于两个不同的来源
- OCCRP 创建的 Google 电子表格。
- ISO 20275: 实体法律形式代码列表
维基百科还维护着 企业实体类型索引。
另请参阅
- 深入探讨聚类,这是 OpenRefine 文档的一部分,讨论了如何在数据聚类中创建冲突。
- probablepeople,由 datamade.us 的杰出人士制作的西方姓名解析器。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源代码分发
fingerprints-1.2.3.tar.gz (16.3 kB 查看哈希值)
构建分发
fingerprints-1.2.3-py2.py3-none-any.whl (17.1 kB 查看哈希值)
关闭
fingerprints-1.2.3.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1719f808ec8dd6c7b32c79129be3cc77dc2d2258008cd0236654862a86a78b97 |
|
MD5 | fe48d853531d972371d9e1bb1879182d |
|
BLAKE2b-256 | cb17292aab0190d8c80647ad0961c3fb9830016541b3d54fa4a67b5327f4e922 |
关闭
fingerprints-1.2.3-py2.py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b8f83ad13dcdadce94903383db3b9b062b85a3a86f54f9e26d8faa97313f20bf |
|
MD5 | 1cbf3b18cc050d65ad47eb17cac0a0e0 |
|
BLAKE2b-256 | 7d2b24a2675458df250e144174b0d18d70ee031eed5c108256200a68aaf087f9 |