跳转到主要内容

快速向量空间建模的Python框架

项目描述

GA Wheel

gensim是一个用于大规模语料库的主题建模文档索引相似度检索的Python库。目标用户群体是自然语言处理(NLP)和信息检索(IR)领域。

特性

  • 所有算法在语料库大小方面都是内存无关的(可以处理大于RAM的输入,流式处理,离核处理)

  • 直观的接口

    • 轻松集成自己的输入语料库/数据流(简单的流式API)

    • 轻松扩展其他向量空间算法(简单的转换API)

  • 流行算法的高效多核实现,如在线的潜在语义分析(LSA/LSI/SVD)潜在狄利克雷分配(LDA)随机投影(RP)层次狄利克雷过程(HDP)word2vec深度学习

  • 分布式计算:可以在计算机集群上运行潜在语义分析潜在狄利克雷分配

  • 丰富的文档和Jupyter Notebook教程

如果这个功能列表让您感到困惑,您可以先在维基百科上了解更多关于向量空间模型无监督文档分析的信息。

安装

此软件依赖于NumPy和Scipy,这是两个用于科学计算的Python包。在安装gensim之前,您必须安装它们。

建议在安装NumPy之前安装一个快速的BLAS库。这是可选的,但使用优化的BLAS(如MKL、ATLASOpenBLAS)据称可以将其性能提高一个数量级。在OSX上,NumPy会自动拾取其vecLib BLAS,因此您无需做任何事情。

安装最新版本的gensim

pip install --upgrade gensim

或者,如果您已经下载并解压了源tar.gz包

python setup.py install

有关其他安装方式,请参阅文档

gensim在所有支持的Python版本下持续进行测试。在gensim 4.0.0中放弃了Python 2.7的支持 - 如果您必须使用Python 2.7,请安装gensim 3.8.3。

为什么gensim这么快且内存效率高?它不是纯Python吗?Python不是慢且贪婪的吗?

许多科学算法可以用大矩阵运算来表示(请参阅上面的BLAS说明)。gensim通过依赖NumPy利用这些低级BLAS库。因此,虽然gensim-the-top-level-code是纯Python编写的,但实际上它底层执行高度优化的Fortran/C代码,包括多线程(如果您的BLAS这样配置)。

在内存方面,gensim大量使用Python内置的生成器和迭代器进行流式数据处理。内存效率是gensim的设计目标之一,是gensim的核心特性,而不仅仅是事后添加的功能。

文档

引用gensim

在学术论文和论文中引用gensim时,请使用此BibTeX条目

@inproceedings{rehurek_lrec,
      title = {{Software Framework for Topic Modelling with Large Corpora}},
      author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
      booktitle = {{Proceedings of the LREC 2010 Workshop on New
           Challenges for NLP Frameworks}},
      pages = {45--50},
      year = 2010,
      month = May,
      day = 22,
      publisher = {ELRA},
      address = {Valletta, Malta},
      language={English}
}

gensim是开源软件,根据GNU LGPLv2.1许可发布。版权(c)2009至今 Radim Rehurek

项目详情


发布历史 发布通知 | RSS源

下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

gensim-4.3.3.tar.gz (23.3 MB 查看散列值)

上传时间

构建分布

gensim-4.3.3-cp312-cp312-win_amd64.whl (24.0 MB 查看散列值)

上传时间 CPython 3.12 Windows x86-64

gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.6 MB 查看散列值)

上传时间 CPython 3.12 manylinux: glibc 2.17+ x86-64

gensim-4.3.3-cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (26.5 MB 查看散列值)

上传时间 CPython 3.12 manylinux: glibc 2.17+ ARM64

gensim-4.3.3-cp312-cp312-macosx_11_0_arm64.whl (24.0 MB 查看散列值)

上传时间 CPython 3.12 macOS 11.0+ ARM64

gensim-4.3.3-cp312-cp312-macosx_10_9_x86_64.whl (24.1 MB 查看散列值)

上传于 CPython 3.12 macOS 10.9+ x86-64

gensim-4.3.3-cp311-cp311-win_amd64.whl (24.0 MB 查看哈希值)

上传于 CPython 3.11 Windows x86-64

gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB 查看哈希值)

上传于 CPython 3.11 manylinux: glibc 2.17+ x86-64

gensim-4.3.3-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (26.6 MB 查看哈希值)

上传于 CPython 3.11 manylinux: glibc 2.17+ ARM64

gensim-4.3.3-cp311-cp311-macosx_11_0_arm64.whl (24.0 MB 查看哈希值)

上传于 CPython 3.11 macOS 11.0+ ARM64

gensim-4.3.3-cp311-cp311-macosx_10_9_x86_64.whl (24.1 MB 查看哈希值)

上传于 CPython 3.11 macOS 10.9+ x86-64

gensim-4.3.3-cp310-cp310-win_amd64.whl (24.0 MB 查看哈希值)

上传于 CPython 3.10 Windows x86-64

gensim-4.3.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.5 MB 查看哈希值)

上传于 CPython 3.10 manylinux: glibc 2.17+ x86-64

gensim-4.3.3-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (26.4 MB 查看哈希值)

上传于 CPython 3.10 manylinux: glibc 2.17+ ARM64

gensim-4.3.3-cp310-cp310-macosx_11_0_arm64.whl (24.0 MB 查看哈希值)

上传于 CPython 3.10 macOS 11.0+ ARM64

gensim-4.3.3-cp310-cp310-macosx_10_9_x86_64.whl (24.1 MB 查看哈希值)

上传于 CPython 3.10 macOS 10.9+ x86-64

gensim-4.3.3-cp39-cp39-win_amd64.whl (24.0 MB 查看哈希值)

上传于 CPython 3.9 Windows x86-64

gensim-4.3.3-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.6 MB 查看哈希值)

上传于 CPython 3.9 manylinux: glibc 2.17+ x86-64

gensim-4.3.3-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (26.5 MB 查看哈希值)

上传于 CPython 3.9 manylinux: glibc 2.17+ ARM64

gensim-4.3.3-cp39-cp39-macosx_11_0_arm64.whl (24.0 MB 查看哈希值)

上传于 CPython 3.9 macOS 11.0+ ARM64

gensim-4.3.3-cp39-cp39-macosx_10_9_x86_64.whl (24.1 MB 查看哈希值)

上传于 CPython 3.9 macOS 10.9+ x86-64

gensim-4.3.3-cp38-cp38-win_amd64.whl (24.0 MB 查看哈希值)

上传于 CPython 3.8 Windows x86-64

gensim-4.3.3-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.6 MB 查看哈希值)

上传于 CPython 3.8 manylinux: glibc 2.17+ x86-64

gensim-4.3.3-cp38-cp38-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (26.5 MB 查看哈希值)

上传于 CPython 3.8 manylinux: glibc 2.17+ ARM64

gensim-4.3.3-cp38-cp38-macosx_11_0_arm64.whl (24.0 MB 查看哈希值)

上传于 CPython 3.8 macOS 11.0+ ARM64

gensim-4.3.3-cp38-cp38-macosx_10_9_x86_64.whl (24.1 MB 查看哈希值)

上传于 CPython 3.8 macOS 10.9+ x86-64

由以下赞助商支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面