跳转到主要内容

支持多种语言的停用词管理的Python库。

项目描述

Build Status - develop branch Coverage of the code

Python库,用于管理39种语言的常见停用词。

使用方法

简单

比长篇大论更直接,以下为直接介绍

>>> from mots_vides import stop_words

>>> english_stop_words = stop_words('en')
>>> text = """
... Even though using "lorem ipsum" often arouses curiosity
... due to its resemblance to classical Latin,
... it is not intended to have meaning.
... """

>>> print(english_stop_words.rebase(text))
XXXX XXXXXX XXXXX "lorem ipsum" XXXXX arouses curiosity
XXX XX XXX resemblance XX classical Latin,
XX XX XXX intended XX XXXX meaning.

>>> print(english_stop_words.rebase(text, '').split())
['"lorem', 'ipsum"', 'arouses', 'curiosity', 'resemblance',
'classical', 'Latin,', 'intended', 'meaning.']

高级

关键词 还提供了两个用于管理您语言中的停用词的类。

StopWord 是一个用于存储停用词集合的容器。默认情况下是语言无关的,但可以轻松地操作以创建集合

>>> from mots_vides import StopWord

>>> french_stop_words = StopWord('french', ['le', 'la', 'les'])
>>> french_stop_words += StopWord('french', ['un', 'une', 'des'])
>>> french_stop_words += ['or', 'ni', 'car']
>>> french_stop_words += 'assez'
>>> french_stop_words += u'aussitôt'
>>> print(sorted(french_stop_words))
['assez', u'aussitôt', 'car', 'des', 'la', 'le', 'les', 'ni', 'or', 'un', 'une']

StopWordFactory 是一个工厂,用于通过语言和相应的停用词集合初始化 StopWord 对象。

>>> from mots_vides import StopWordFactory

>>> factory = StopWordFactory()
>>> french_stop_words = factory.get_stop_words('french')
>>> print(len(french_stop_words))
577

您也可以使用国际语言代码来查询一个集合

>>> french_stop_words = factory.get_stop_words('fr')
>>> print(len(french_stop_words))
577

如果所需的语言不存在,将引发一个 StopWordError,除非将 fail_safe 参数设置为 True

>>> klingon_stop_words = factory.get_stop_words('klingon')
StopWordError: Stop words are not available in "klingon".
>>> klingon_stop_words = factory.get_stop_words('klingon', fail_safe=True)
>>> print(len(klingon_stop_words))
0

支持的语言

  • 阿拉伯语

  • 亚美尼亚语

  • 巴斯克语

  • 孟加拉语

  • 保加利亚语

  • 加泰罗尼亚语

  • 中文

  • 捷克语

  • 丹麦语

  • 荷兰语

  • 英语

  • 芬兰语

  • 法语

  • 加利西亚语

  • 德语

  • 希腊语

  • 印地语

  • 匈牙利语

  • 印度尼西亚语

  • 爱尔兰语

  • 意大利语

  • 日语

  • 韩语

  • 拉脱维亚语

  • 立陶宛语

  • 马拉地语

  • 挪威语

  • 波斯语

  • 波兰语

  • 葡萄牙语

  • 罗马尼亚语

  • 俄语

  • 斯洛伐克语

  • 西班牙语

  • 瑞典语

  • 泰语

  • 土耳其语

  • 乌克兰语

  • 乌尔都语

兼容性

已在Python 2.6、2.7、3.2、3.3、3.4上测试。

作者

备注

空词 在法语中意味着 停用词

灵感来源于 https://github.com/Alir3z4/python-stop-words

变更日志

2015.5.11

  • 修复Python 3的缓存系统

2015.2.6

  • 修复factory.get_available_languages中的潜在问题

2015.2.5

  • 修复打包问题

  • 添加重置命令脚本

2015.2.4

  • 初始版本

2015.1.21.dev0

  • 开发版本

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源代码发行版

mots-vides-2015.5.11.tar.gz (53.0 kB 查看哈希值)

上传时间 源代码

构建发行版

mots_vides-2015.5.11-py2.py3-none-any.whl (59.5 kB 查看哈希值)

上传时间 Python 2 Python 3

支持者