Snowball词干算法,用于信息检索
项目描述
词干算法
PyStemmer 提供了对计算单词“词干”形式的算法的访问。这种形式去除了大多数常见的形态学后缀;希望代表一个常见的语言学基础形式。这在构建搜索引擎和信息检索软件中非常有用;例如,启用词干分析的搜索应该能够根据“cycles”查询找到包含“cycling”的文档。
PyStemmer 通过将 Snowball 项目的 libstemmer 库包装在 Python 模块中,为几种(主要是欧洲语言)语言提供了算法。
它还提供了对英语经典 Porter 词干算法的访问:尽管这已被改进的算法取代,但原始算法可能对希望重现早期实验结果的信息检索研究人员具有吸引力。
项目详情
关闭
PyStemmer-2.2.0.1.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 9f3b366f1ed06b49dc1868bf0aefd884423db80f3431be442d0f993e448cc67b |
|
MD5 | d3359dabf9370fcb75770a8c688bdeb5 |
|
BLAKE2b-256 | 015ed2db082b8da23972a434aeda9180864f825478b7bf3b5f035c2007e2a0bd |