快速向量空间建模的Python框架
项目描述
gensim是一个用于大规模语料库的主题建模、文档索引和相似度检索的Python库。目标用户群体是自然语言处理(NLP)和信息检索(IR)领域。
特性
所有算法在语料库大小方面都是内存无关的(可以处理大于RAM的输入,流式处理,离核处理)
直观的接口
轻松集成自己的输入语料库/数据流(简单的流式API)
轻松扩展其他向量空间算法(简单的转换API)
流行算法的高效多核实现,如在线的潜在语义分析(LSA/LSI/SVD)、潜在狄利克雷分配(LDA)、随机投影(RP)、层次狄利克雷过程(HDP)或word2vec深度学习。
分布式计算:可以在计算机集群上运行潜在语义分析和潜在狄利克雷分配。
安装
此软件依赖于NumPy和Scipy,这是两个用于科学计算的Python包。在安装gensim之前,您必须安装它们。
建议在安装NumPy之前安装一个快速的BLAS库。这是可选的,但使用优化的BLAS(如MKL、ATLAS或OpenBLAS)据称可以将其性能提高一个数量级。在OSX上,NumPy会自动拾取其vecLib BLAS,因此您无需做任何事情。
安装最新版本的gensim
pip install --upgrade gensim
或者,如果您已经下载并解压了源tar.gz包
python setup.py install
有关其他安装方式,请参阅文档。
gensim在所有支持的Python版本下持续进行测试。在gensim 4.0.0中放弃了Python 2.7的支持 - 如果您必须使用Python 2.7,请安装gensim 3.8.3。
为什么gensim这么快且内存效率高?它不是纯Python吗?Python不是慢且贪婪的吗?
许多科学算法可以用大矩阵运算来表示(请参阅上面的BLAS说明)。gensim通过依赖NumPy利用这些低级BLAS库。因此,虽然gensim-the-top-level-code是纯Python编写的,但实际上它底层执行高度优化的Fortran/C代码,包括多线程(如果您的BLAS这样配置)。
在内存方面,gensim大量使用Python内置的生成器和迭代器进行流式数据处理。内存效率是gensim的设计目标之一,是gensim的核心特性,而不仅仅是事后添加的功能。
文档
引用gensim
在学术论文和论文中引用gensim时,请使用此BibTeX条目
@inproceedings{rehurek_lrec, title = {{Software Framework for Topic Modelling with Large Corpora}}, author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka}, booktitle = {{Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks}}, pages = {45--50}, year = 2010, month = May, day = 22, publisher = {ELRA}, address = {Valletta, Malta}, language={English} }
gensim是开源软件,根据GNU LGPLv2.1许可发布。版权(c)2009至今 Radim Rehurek
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
构建分布
gensim-4.3.3.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 84852076a6a3d88d7dac5be245e24c21c3b819b565e14c1b61fa3e5ee76dcf57 |
|
MD5 | 4cc2e87007cf5047b22555a79c9364fb |
|
BLAKE2b-256 | ecbc36ce4d510085cf150f17d79bb5e88cde942aeba2a894aed5893812ea1e6d |
哈希值 用于 gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6237a50de4da7a037b19b2b6c430b6537243dcdedebf94afeb089e951953e601 |
|
MD5 | b8860e5d5f8ac82bea638f85af0629b5 |
|
BLAKE2b-256 | 1a077a0d5e6cab4da2769c8018f2472690ccb8cab191bf2fe46342dfd627486b |
哈希值 用于 gensim-4.3.3-cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 7198987116373ab99f034b292a04ac841531d12b56345851c98b40a3fcd93a85 |
|
MD5 | 7eb950fa67e9d3da3f1e5e2de265a4d2 |
|
BLAKE2b-256 | e0b7a316ba52548ca405413c23967c1c6c77d00f82cf6b0cb63d268001e023aa |
哈希值 用于 gensim-4.3.3-cp312-cp312-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4db485e08a0287e0fd6a029d89b90913d1df38f1dcd34cd2ab758873ba9255f3 |
|
MD5 | a3e53d88fe1c8d505213840e1ee8f2bc |
|
BLAKE2b-256 | 1f76616bc781bc19ee76b387a101211f73e00cf59368fcc221e77f88ea907d04 |
哈希值 用于 gensim-4.3.3-cp312-cp312-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 9a65ed1a8c1fc83890b4eb2a45ae2b32e82a0209c970c8c74694d0374c2415cb |
|
MD5 | f4c11544df93a9510208cdf8c3163f16 |
|
BLAKE2b-256 | 40f13231b3fd6f7424f28d7d673679c843da0c61659538262a234f9f43ed5b10 |
哈希值 用于 gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | d662bf96e3d741b6ab61a54be842a7cbf5e45193008b2f4225c758cafd7f9cdc |
|
MD5 | aa6a73095e4156e813cb6a30ed86b311 |
|
BLAKE2b-256 | 784ff6045d5d5f8e7838c42572607ce440f95dbf4de5da41ae664198c2839c05 |
哈希值 用于 gensim-4.3.3-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | c071b4329ed1be02446eb7ef637b94c68cf0080c15c57fbcde667fce2e49c3fe |
|
MD5 | 34264b4473600fce878984a5064c5b3c |
|
BLAKE2b-256 | ef84e46049a16fa7daa26ac9e83e41b3bc3b30867da832a5d7cb0779da893255 |
哈希值 用于 gensim-4.3.3-cp311-cp311-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 32a4cac3f3c38af2069eab9524609fc92ebaeb2692b7280cfda365a3517a280a |
|
MD5 | 7c8168e93695f5c17eff87e3c52ea12a |
|
BLAKE2b-256 | 2a15aca2fc3b9e97bd0e28be4a4302793c43757b04b828223c6d103c72132f19 |
哈希值 用于 gensim-4.3.3-cp311-cp311-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 99e7b70352aecc6c1674dde82b75f453e7a5d1cc71ac1cfbc460bf1fe20501b7 |
|
MD5 | 59e65cf6760eada03e1014dbd64b84c2 |
|
BLAKE2b-256 | 7bf4f43fd909aa29fd92f0e6d703d90c0e6507a7c6be3d686a025b1e192afa3a |
哈希值 用于 gensim-4.3.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6fac93ef5e44982defef9d3c1e4cd00245506b8a29cec19ec5e00f0221b8144c |
|
MD5 | 6c37cec687f6525ae9a3a6122bdbea58 |
|
BLAKE2b-256 | de63776ee55c773f55fa9d4fc1596f2e5e15de109921a6727dfe29cc4f0baeb7 |
哈希值 用于 gensim-4.3.3-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | dea62d3e2ada547687bde6cbba37efa50b534db77e9d44fd5802676bb072c9d9 |
|
MD5 | 9ad8d237b75da88dfa7ca2e85f93e6e6 |
|
BLAKE2b-256 | 73f4376290613da44ea9d11bdce3a1705ba7cc25f971edb2b460dc192092068c |
哈希值 for gensim-4.3.3-cp310-cp310-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4019263c9d9afae7c669f880c17e09461e77a71afce04ed4d79cf71a4cad2848 |
|
MD5 | a0808fc8669861d614e606b582457107 |
|
BLAKE2b-256 | ff6e7c6d7dda41924b83c4b1eb096942b68b85ba305df7f0963ad0642ac0d73f |
哈希值 for gensim-4.3.3-cp310-cp310-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4e72840adfbea35c5804fd559bc0cb6bc9f439926220a37d852b7ce76eb325c1 |
|
MD5 | 3b2424ddf46e0e6d58626d16bbdbadd7 |
|
BLAKE2b-256 | 2712047dc8b6bed7c4833bcdfbafc10af0f96dc3847ce37be63b14bd6e6c7767 |
哈希值 for gensim-4.3.3-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1049f5bc2a84b21a1cb9976741826c0ebf25cfdff4a888361db4b4a697d99f0d |
|
MD5 | d6e09cada1f745d3317923029c7628c4 |
|
BLAKE2b-256 | e3434feed7d79a69d886197a83389b6728ecaaa8839e51472da1228a818a69a7 |
哈希值 for gensim-4.3.3-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 832311f0c420c0841c98b9e6cc4d83ea362add6db917bf2d646de4bed48a29f7 |
|
MD5 | 2f4d2c4126cc560915345b2a59baa4f8 |
|
BLAKE2b-256 | 428ae03fffa078b00a0d8e43cb5ffab71eb57dea690804b49ee03c56722805c1 |
哈希值 for gensim-4.3.3-cp39-cp39-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | c560d28133cca58078221d60fce346f98f2c5e93d2ad42942f32c0d60903f65b |
|
MD5 | 6db44b2dd7b59a9036083c4ee6f512bc |
|
BLAKE2b-256 | e40dd60f023abd74e1ccd448c97ec9c0d78ddc43a95497c14939a05c5de6f887 |
哈希值 for gensim-4.3.3-cp39-cp39-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 688a13b9bba839fedc7f3da6806d5701a756ed940839702ba6d7f494e917baef |
|
MD5 | c92ccad74bf0f6b1beb92782dd5d22eb |
|
BLAKE2b-256 | 91fc81ba7fbedd635fb22f3b54df80171bcd4a2149bbac2b40a26cace1b1812c |
哈希值 for gensim-4.3.3-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a200d6ac522cdf91e6048e1a368318c6b1b6e0c79009dfd408345ea2b9d3c096 |
|
MD5 | e8a337ad1cf4ac54d466e43459313e90 |
|
BLAKE2b-256 | 5d5d21365344f828941818a4ce016f43b9513c4b8e065769927629b66412382e |
哈希值 for gensim-4.3.3-cp38-cp38-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 9161e52a6ec2a0580df66e9fac4ff7fc43efdc40674fbd4dd9e914796cc68bc3 |
|
MD5 | 26d7e83b89648a4176eb9593f2a85252 |
|
BLAKE2b-256 | 8143823a203bbb9ce37517d2efe1eb4eb2f327249130aa86d069f00a09ba0703 |
哈希值 for gensim-4.3.3-cp38-cp38-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2e8eaf5ef576f4d45e98cf87e7edda9afb469dff954a923402dc1ffc35195901 |
|
MD5 | 8f658fb9bb88ea72a9bd27aba48c24e7 |
|
BLAKE2b-256 | 7fbd71c82dd7021a1943ceb6ec85af37871d079623cf93ff70d393ba21c3856b |
哈希值 for gensim-4.3.3-cp38-cp38-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1d7efa5e35d3f0ec02e6e8343b623c2c863be99e8c26866cf0bebd24fb10198c |
|
MD5 | 0fa2ba920de63fc404b74d05ba8d587e |
|
BLAKE2b-256 | abf00599f85befd7f156367980fb84130b5f11fa671b3c368c70b64ac03784c4 |