Rust语言与Python绑定的自然语言处理
项目描述
vtext
这是Rust vtextcrate的Python包装器。
此包旨在为机器学习应用提供高性能的文本数据摄取工具包。
特性
- 分词:正则表达式分词器,Unicode分割+语言特定规则
- 词干提取:Snowball(在Python中比NLTK快15-20倍)
- 分词计数:将分词计数转换为稀疏矩阵以用于机器学习库。类似于scikit-learn中的
CountVectorizer
和HashingVectorizer
,但功能更少。 - Levenshtein编辑距离;Sørensen-Dice,Jaro,Jaro Winkler字符串相似度
安装
vtext需要Python 3.6+,numpy 1.15+,可以使用以下命令安装:
pip install vtext
文档
项目文档:vtext.io/doc/latest/index.html
许可证
vtext采用Apache许可证,版本2.0发布。
项目详情
下载文件
下载适合您平台的应用程序。如果您不确定要选择哪个,请了解更多关于安装包的信息。
源分发
vtext-0.2.0.tar.gz (13.6 kB 查看哈希值)
构建版本
vtext-0.2.0-cp38-cp38-win_amd64.whl (2.2 MB 查看哈希值)
关闭
vtext-0.2.0.tar.gz 的哈希值
哈希摘要 | 算法 | |
---|---|---|
SHA256 | 0ce1b0bb7e1cc0adcf5c8064757adaa6ea7bf52e366a3d30d2eac0588145f0e6 |
|
MD5 | dcb5f4f40e87453c163ee02c622c00c3 |
|
BLAKE2b-256 | 21976a5f80a38be8130345517bb5d690c863a48fdc6a22f15706cdf196ac6c98 |
关闭
哈希值 为 vtext-0.2.0-cp37-cp37m-macosx_10_14_x86_64.whl
哈希摘要 | 算法 | |
---|---|---|
SHA256 | 397823cda22d04de43312e27cbe74be4318c20ec2ef38df9c66493580be06ec8 |
|
MD5 | cc077a7243666557a85b48e848057e98 |
|
BLAKE2b-256 | 221a72764efdd9ed3d32295d0dddf7ed8500b32ab4ced7c39b7f8bd4936e1fb6 |
关闭
哈希值 为 vtext-0.2.0-cp36-cp36m-macosx_10_14_x86_64.whl
哈希摘要 | 算法 | |
---|---|---|
SHA256 | 1791aad4a999525a7c19ae25ffdeb491839e81e958995567151a3bf8012c32ff |
|
MD5 | aef53e618c8de5561fdcaa3618adb88e |
|
BLAKE2b-256 | a2fbdecc22acef0fed05c8680650487af7e500bddf4091c1d0cfe767eb4dd7eb |