支持多种语言的停用词管理的Python库。
项目描述
Python库,用于管理39种语言的常见停用词。
使用方法
简单
比长篇大论更直接,以下为直接介绍
>>> from mots_vides import stop_words
>>> english_stop_words = stop_words('en')
>>> text = """
... Even though using "lorem ipsum" often arouses curiosity
... due to its resemblance to classical Latin,
... it is not intended to have meaning.
... """
>>> print(english_stop_words.rebase(text))
XXXX XXXXXX XXXXX "lorem ipsum" XXXXX arouses curiosity
XXX XX XXX resemblance XX classical Latin,
XX XX XXX intended XX XXXX meaning.
>>> print(english_stop_words.rebase(text, '').split())
['"lorem', 'ipsum"', 'arouses', 'curiosity', 'resemblance',
'classical', 'Latin,', 'intended', 'meaning.']
高级
关键词 还提供了两个用于管理您语言中的停用词的类。
StopWord 是一个用于存储停用词集合的容器。默认情况下是语言无关的,但可以轻松地操作以创建集合
>>> from mots_vides import StopWord
>>> french_stop_words = StopWord('french', ['le', 'la', 'les'])
>>> french_stop_words += StopWord('french', ['un', 'une', 'des'])
>>> french_stop_words += ['or', 'ni', 'car']
>>> french_stop_words += 'assez'
>>> french_stop_words += u'aussitôt'
>>> print(sorted(french_stop_words))
['assez', u'aussitôt', 'car', 'des', 'la', 'le', 'les', 'ni', 'or', 'un', 'une']
StopWordFactory 是一个工厂,用于通过语言和相应的停用词集合初始化 StopWord 对象。
>>> from mots_vides import StopWordFactory
>>> factory = StopWordFactory()
>>> french_stop_words = factory.get_stop_words('french')
>>> print(len(french_stop_words))
577
您也可以使用国际语言代码来查询一个集合
>>> french_stop_words = factory.get_stop_words('fr')
>>> print(len(french_stop_words))
577
如果所需的语言不存在,将引发一个 StopWordError,除非将 fail_safe 参数设置为 True
>>> klingon_stop_words = factory.get_stop_words('klingon')
StopWordError: Stop words are not available in "klingon".
>>> klingon_stop_words = factory.get_stop_words('klingon', fail_safe=True)
>>> print(len(klingon_stop_words))
0
支持的语言
- 阿拉伯语 
- 亚美尼亚语 
- 巴斯克语 
- 孟加拉语 
- 保加利亚语 
- 加泰罗尼亚语 
- 中文 
- 捷克语 
- 丹麦语 
- 荷兰语 
- 英语 
- 芬兰语 
- 法语 
- 加利西亚语 
- 德语 
- 希腊语 
- 印地语 
- 匈牙利语 
- 印度尼西亚语 
- 爱尔兰语 
- 意大利语 
- 日语 
- 韩语 
- 拉脱维亚语 
- 立陶宛语 
- 马拉地语 
- 挪威语 
- 波斯语 
- 波兰语 
- 葡萄牙语 
- 罗马尼亚语 
- 俄语 
- 斯洛伐克语 
- 西班牙语 
- 瑞典语 
- 泰语 
- 土耳其语 
- 乌克兰语 
- 乌尔都语 
兼容性
已在Python 2.6、2.7、3.2、3.3、3.4上测试。
备注
空词 在法语中意味着 停用词。
变更日志
2015.5.11
- 修复Python 3的缓存系统 
2015.2.6
- 修复factory.get_available_languages中的潜在问题 
2015.2.5
- 修复打包问题 
- 添加重置命令脚本 
2015.2.4
- 初始版本 
2015.1.21.dev0
- 开发版本 
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源代码发行版
         mots-vides-2015.5.11.tar.gz  (53.0 kB 查看哈希值)
      
    构建发行版
    
       关闭
    
      
        
    
    
  
mots-vides-2015.5.11.tar.gz的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | cfbc05d38538af21e20e7b1c44c82076f1489c8d4949019f184f0765c8bf6a44 | |
| MD5 | 3ff563a9a9fa306b604b32c059db7c1d | |
| BLAKE2b-256 | cef35e55cedd94550cbfd9dd62d48cd0d535de049e8a49e066ca720326101bbe | 
    
       关闭
    
      
        
    
    
  
mots_vides-2015.5.11-py2.py3-none-any.whl的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 5c00af05234f4021396c6d888c8e34142cfe880fe732ff063f6cfad2d6342dc8 | |
| MD5 | 609dbfa50fbd094feefcfd2964faaa87 | |
| BLAKE2b-256 | 9534f5a4ec9cfad0e484b087de46e381efc991d5fde07412de51b85f59853ed7 |