跳转到主要内容

纯Python实现的Snowball词干提取器

项目描述

在Python中使用Snowball词干提取器的常规方法是使用pystemmer包,该包提供了Snowball C库的Python包装器。然而,在某些环境中Python C扩展有问题。因此,此包提供了Snowball词干提取算法的纯Python实现。

词干提取算法的实现是通过sbl2py将Snowball语言翻译为Python的。

安装

使用pip安装非常简单

pip install purestemmer

用法

通常,当可能时,您会更喜欢使用模块,因为它比快得多

try:
    import Stemmer
except ImportError:
    # pystemmer is not available, use purestemmer instead
    import purestemmer as Stemmer

由于具有相同的公共API并提供与相同的算法,因此在切换到这样的时不应需要更改任何代码。

有关如何使用词干提取算法的详细信息,请参阅文档。

之间的差异

  • purestemmer 仅在 Python 2.7 上进行了测试

  • purestemmer.Stemmer 实例是线程安全的

  • purestemmer 的平均速度比 pystemmer 慢约 100 倍

许可证

purestemmer 本身受 MIT 许可证 保护。底层的 Snowball 算法受 BSD-3 许可证 保护。请参阅 LICENSE 文件以获取详细信息。

项目详情


下载文件

下载适合您平台的文件。如果您不确定要选择哪个,请了解更多关于 安装软件包 的信息。

源代码发行版

purestemmer-0.1.1.tar.gz (78.3 kB 查看哈希值)

上传时间 源代码