为bicleaner-ai的glove-python分支
项目描述
bicleaner-ai-glove
注意:这是一个从glove-python分叉的项目,专为bicleaner-ai创建。
这是GloVe的玩具Python实现。
GloVe生成词的密集向量嵌入,其中一起出现的词在结果向量空间中靠近。
虽然这产生的嵌入与word2vec(在gensim中有出色的Python实现)相似,但方法不同:GloVe通过分解语料库词共现矩阵的对数来生成嵌入。
代码使用异步随机梯度下降,并使用Cython实现。它很可能包含大量错误。
安装
使用pip从pypi安装:pip install glove_python
。
OSX用户注意:由于使用了OpenMP,glove-python无法在Clang下编译。为了安装它,您需要一个较新的gcc版本(例如来自Homebrew)。这应该由setup.py
捕获;如果没有,请提出一个问题。
使用OSX中默认的Python发行版进行构建也不受支持;请尝试使用Homebrew或Anaconda的版本。
用法
生成嵌入是一个两步过程:从语料库创建共现矩阵,然后使用它来生成嵌入。Corpus
类帮助从令牌的可迭代对象构建语料库;Glove
类使用类似sklearn的API训练嵌入。
还支持基本的段落向量。段落向量(在这种情况下)是在单词向量空间中对段落(多词文本片段)的嵌入,使得段落表示接近其包含的单词,并调整语料库中单词的频率(类似于tf-idf加权)。在调用训练模型上的transform_paragraph
方法后可以获得这些向量。
示例
example.py
包含一些运行简单训练脚本的示例代码:ipython -i -- examples/example.py -c my_corpus.txt -t 10
应处理您的语料库,运行10个GloVe训练轮次,并将您放入一个ipython
外壳中,其中glove.most_similar('physics')
应产生一个类似单词的列表。
如果您想处理维基百科语料库,可以使用-w
标志将文件从此处传递到example.py
脚本中。运行make all-wiki
应下载一个小型维基百科导出文件,处理它并训练嵌入。构建共现矩阵将花费一些时间;通过增加训练并行性以匹配可用的物理CPU核心数可以提高向量的训练速度。
在我的机器上运行此代码产生以下结果
In [1]: glove.most_similar('physics')
Out[1]:
[('biology', 0.89425889335342257),
('chemistry', 0.88913708236100086),
('quantum', 0.88859617025616333),
('mechanics', 0.88821824562025431)]
In [4]: glove.most_similar('north')
Out[4]:
[('west', 0.99047203572917908),
('south', 0.98655786905501008),
('east', 0.97914140138065575),
('coast', 0.97680427897282185)]
In [6]: glove.most_similar('queen')
Out[6]:
[('anne', 0.88284931171714842),
('mary', 0.87615260138308615),
('elizabeth', 0.87362497374226267),
('prince', 0.87011034923161801)]
In [19]: glove.most_similar('car')
Out[19]:
[('race', 0.89549347066796814),
('driver', 0.89350343749207217),
('cars', 0.83601334715106568),
('racing', 0.83157724991920212)]
开发
欢迎提交拉取请求。
在修改.pyx
扩展文件时,您需要运行python setup.py cythonize
以在运行pip install -e .
之前生成扩展.c
和.cpp
文件。
项目详情
bicleaner-ai-glove-0.2.1.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f57d3ac324067796adb6797ca69225e6cf1ef2ee2a01bf4d35011863070885c7 |
|
MD5 | b70f61eb86b63860c79d31dffb5723c6 |
|
BLAKE2b-256 | 8389469ef0c6fc8582ceb510cd8813efe743eb62a8f3f428e29bb8cfcff80422 |
bicleaner_ai_glove-0.2.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b5a415a50f2955ee6cda147b9e51b161f4e05319172a22c56b7013f6583d44d0 |
|
MD5 | 2a3257e4f6ba436adb4551ca7c2c80cf |
|
BLAKE2b-256 | 0c8f479c256263e0b60dfa24fb189d32f1f0589054707920b5a00fb5af661731 |
bicleaner_ai_glove-0.2.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | d23a01069a69028a021bb5700a0abb1d7001ee594e433d922878dab5744f743a |
|
MD5 | da6aa1b3dd8fe5afd8b58d7ec8d35404 |
|
BLAKE2b-256 | 50cf0dd82d2f5999845e06bd184ceded8834585728247a3f3619ed85c5addafc |
bicleaner_ai_glove-0.2.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4b547bfc8e8c9d79815de1b119ed8bb6c8a0f1ce2881a0858e564d932e158499 |
|
MD5 | e4f97bd8f67adc65a911796f671de294 |
|
BLAKE2b-256 | a0e4e6d196f4b742f6070a74d9dfae4488d8076651de7545b9c92b0ed864021d |
bicleaner_ai_glove-0.2.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 79918a93abb17b71090ab046523523c101af3fdd9e25a6a3e854726c55617cef |
|
MD5 | 139a0bea9798c87969249ec736988d83 |
|
BLAKE2b-256 | 0ba23ec91ad826d5c8d5e2865fb134948d3463402b22e059d7fb3423a68bfac4 |
bicleaner_ai_glove-0.2.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 132003f85c0cc1e00f1e93e2c6075be613f9a11c7a6882ac73abb710a83b9545 |
|
MD5 | e98f7c49d1233b8e82fb67f07308037e |
|
BLAKE2b-256 | 4bf06f3d1298eb155d9aa7a7d4f9a9f73abb71db02366295d6aecb702fc4f648 |
哈希值 for bicleaner_ai_glove-0.2.1-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 03ecf38f08cf292d8219e745bf7f1beb7239245627383925f02599e8afcd874d |
|
MD5 | 96a38b59b4e57bc7b3d91347cdf45d64 |
|
BLAKE2b-256 | 5282f81de07670a98b07d7954ff50a128541c298bfe5983df6341fdcc41d6d9c |