跳转到主要内容

处理公司名称的Python库

项目描述

cleanco - 清理组织名称

Python package CodeQL

这是什么/它做什么?

这是一个Python包,用于处理公司名称,通过去除表示组织类型的术语(如“Ltd.”或“Corp”)来提供名称的清理版本。

使用组织类型术语数据库,它还提供了一个工具,可以推断组织的类型,以美国/英国商业实体类型(例如“有限责任公司”或“非营利组织”)的术语来表示。

最后,该系统使用术语信息来建议组织可能成立的国家的名称。例如,公司名称中的“Oy”术语表示它在芬兰成立,而公司名称中的“Ltd”可能意味着英国、美国或其他一些国家。

如何安装它?

如果您已安装pip(如大多数系统所做的那样),只需使用'pip install cleanco'。或者从本网站下载zip发行版,解压缩它,然后

  • Mac: 使用cd进入它,并输入sudo python setup.py install以及您的系统密码。
  • Windows: 与sudo相同,但无需sudo

它是如何工作的?

让我们看看一些示例代码。要获取不带法律后缀的商业名称基础名称

>>> from cleanco import basename
>>> business_name = "Some Big Pharma, LLC"
>>> basename(business_name)
>>> 'Some Big Pharma'

请注意,有时一个名称可能在两个不同的后缀之间。cleanco术语数据覆盖了许多这些,但您可能希望对名称运行两次basename(),以防万一。

如果您想使用您自己的术语,请参阅custom_basename(),它还提供了一些其他调整基础名称生成方式的方法。

要获取商业类型或国家

>>> from cleanco import typesources, matches
>>> classification_sources = typesources()
>>> matches("Some Big Pharma, LLC", classification_sources)
['Limited Liability Company']

要获取可能的司法管辖区国家

>>> from cleanco import countrysources, matches
>>> classification_sources = countrysources()
>>> matches("Some Big Pharma, LLC", classification_sources) ´
['United States of America', 'Philippines']

是否存在错误?

查看问题跟踪器。如果您发现错误或有改进建议或问题,请提交问题,如果可能的话,请提供PR。例如,公司后缀可能不正确,或者可能缺少后缀。

要运行测试,只需安装包并运行python setup.py test。要运行多个Python版本的测试,安装tox并运行它(参见提供的tox.ini)。

特别感谢

由以下机构支持