跳转到主要内容

Rust语言与Python绑定的自然语言处理

项目描述

vtext

这是Rust vtextcrate的Python包装器。

此包旨在为机器学习应用提供高性能的文本数据摄取工具包。

特性

  • 分词:正则表达式分词器,Unicode分割+语言特定规则
  • 词干提取:Snowball(在Python中比NLTK快15-20倍)
  • 分词计数:将分词计数转换为稀疏矩阵以用于机器学习库。类似于scikit-learn中的CountVectorizerHashingVectorizer,但功能更少。
  • Levenshtein编辑距离;Sørensen-Dice,Jaro,Jaro Winkler字符串相似度

安装

vtext需要Python 3.6+,numpy 1.15+,可以使用以下命令安装:

pip install vtext

文档

项目文档:vtext.io/doc/latest/index.html

许可证

vtext采用Apache许可证,版本2.0发布。

项目详情


下载文件

下载适合您平台的应用程序。如果您不确定要选择哪个,请了解更多关于安装包的信息。

源分发

vtext-0.2.0.tar.gz (13.6 kB 查看哈希值)

上传时间 源码

构建版本

vtext-0.2.0-cp38-cp38-win_amd64.whl (2.2 MB 查看哈希值)

上传时间 CPython 3.8 Windows x86-64

vtext-0.2.0-cp38-cp38-manylinux1_x86_64.whl (4.7 MB 查看哈希值)

上传时间 CPython 3.8

vtext-0.2.0-cp38-cp38-macosx_10_14_x86_64.whl (830.2 kB 查看哈希值)

上传时间 CPython 3.8 macOS 10.14+ x86-64

vtext-0.2.0-cp37-cp37m-win_amd64.whl (2.2 MB 查看哈希值)

上传时间 CPython 3.7m Windows x86-64

vtext-0.2.0-cp37-cp37m-manylinux1_x86_64.whl (3.1 MB 查看哈希值)

上传时间 CPython 3.7m

vtext-0.2.0-cp37-cp37m-macosx_10_14_x86_64.whl (829.9 kB 查看哈希值)

上传时间 CPython 3.7m macOS 10.14+ x86-64

vtext-0.2.0-cp37-cp37m-win_amd64.whl (2.2 MB 查看哈希值)

上传时间 CPython 3.6m Windows x86-64

vtext-0.2.0-cp36-cp36m-manylinux1_x86_64.whl (1.6 MB 查看哈希值)

上传时间 CPython 3.6m

vtext-0.2.0-cp36-cp36m-macosx_10_14_x86_64.whl (830.0 kB 查看哈希值)

上传时间 CPython 3.6m macOS 10.14+ x86-64