支持多种语言的停用词管理的Python库。
项目描述
Python库,用于管理39种语言的常见停用词。
使用方法
简单
比长篇大论更直接,以下为直接介绍
>>> from mots_vides import stop_words >>> english_stop_words = stop_words('en') >>> text = """ ... Even though using "lorem ipsum" often arouses curiosity ... due to its resemblance to classical Latin, ... it is not intended to have meaning. ... """ >>> print(english_stop_words.rebase(text)) XXXX XXXXXX XXXXX "lorem ipsum" XXXXX arouses curiosity XXX XX XXX resemblance XX classical Latin, XX XX XXX intended XX XXXX meaning. >>> print(english_stop_words.rebase(text, '').split()) ['"lorem', 'ipsum"', 'arouses', 'curiosity', 'resemblance', 'classical', 'Latin,', 'intended', 'meaning.']
高级
关键词 还提供了两个用于管理您语言中的停用词的类。
StopWord 是一个用于存储停用词集合的容器。默认情况下是语言无关的,但可以轻松地操作以创建集合
>>> from mots_vides import StopWord >>> french_stop_words = StopWord('french', ['le', 'la', 'les']) >>> french_stop_words += StopWord('french', ['un', 'une', 'des']) >>> french_stop_words += ['or', 'ni', 'car'] >>> french_stop_words += 'assez' >>> french_stop_words += u'aussitôt' >>> print(sorted(french_stop_words)) ['assez', u'aussitôt', 'car', 'des', 'la', 'le', 'les', 'ni', 'or', 'un', 'une']
StopWordFactory 是一个工厂,用于通过语言和相应的停用词集合初始化 StopWord 对象。
>>> from mots_vides import StopWordFactory >>> factory = StopWordFactory() >>> french_stop_words = factory.get_stop_words('french') >>> print(len(french_stop_words)) 577
您也可以使用国际语言代码来查询一个集合
>>> french_stop_words = factory.get_stop_words('fr') >>> print(len(french_stop_words)) 577
如果所需的语言不存在,将引发一个 StopWordError,除非将 fail_safe 参数设置为 True
>>> klingon_stop_words = factory.get_stop_words('klingon') StopWordError: Stop words are not available in "klingon". >>> klingon_stop_words = factory.get_stop_words('klingon', fail_safe=True) >>> print(len(klingon_stop_words)) 0
支持的语言
阿拉伯语
亚美尼亚语
巴斯克语
孟加拉语
保加利亚语
加泰罗尼亚语
中文
捷克语
丹麦语
荷兰语
英语
芬兰语
法语
加利西亚语
德语
希腊语
印地语
匈牙利语
印度尼西亚语
爱尔兰语
意大利语
日语
韩语
拉脱维亚语
立陶宛语
马拉地语
挪威语
波斯语
波兰语
葡萄牙语
罗马尼亚语
俄语
斯洛伐克语
西班牙语
瑞典语
泰语
土耳其语
乌克兰语
乌尔都语
兼容性
已在Python 2.6、2.7、3.2、3.3、3.4上测试。
备注
空词 在法语中意味着 停用词。
变更日志
2015.5.11
修复Python 3的缓存系统
2015.2.6
修复factory.get_available_languages中的潜在问题
2015.2.5
修复打包问题
添加重置命令脚本
2015.2.4
初始版本
2015.1.21.dev0
开发版本
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源代码发行版
mots-vides-2015.5.11.tar.gz (53.0 kB 查看哈希值)
构建发行版
关闭
mots-vides-2015.5.11.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | cfbc05d38538af21e20e7b1c44c82076f1489c8d4949019f184f0765c8bf6a44 |
|
MD5 | 3ff563a9a9fa306b604b32c059db7c1d |
|
BLAKE2b-256 | cef35e55cedd94550cbfd9dd62d48cd0d535de049e8a49e066ca720326101bbe |
关闭
mots_vides-2015.5.11-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 5c00af05234f4021396c6d888c8e34142cfe880fe732ff063f6cfad2d6342dc8 |
|
MD5 | 609dbfa50fbd094feefcfd2964faaa87 |
|
BLAKE2b-256 | 9534f5a4ec9cfad0e484b087de46e381efc991d5fde07412de51b85f59853ed7 |