跳转到主要内容

Snowball词干算法,用于信息检索

项目描述

词干算法

PyStemmer 提供了对计算单词“词干”形式的算法的访问。这种形式去除了大多数常见的形态学后缀;希望代表一个常见的语言学基础形式。这在构建搜索引擎和信息检索软件中非常有用;例如,启用词干分析的搜索应该能够根据“cycles”查询找到包含“cycling”的文档。

PyStemmer 通过将 Snowball 项目的 libstemmer 库包装在 Python 模块中,为几种(主要是欧洲语言)语言提供了算法。

它还提供了对英语经典 Porter 词干算法的访问:尽管这已被改进的算法取代,但原始算法可能对希望重现早期实验结果的信息检索研究人员具有吸引力。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

PyStemmer-2.2.0.1.tar.gz (303.0 kB 查看哈希值)

上传时间

由...