跳转到主要内容

Rust语言与Python绑定的自然语言处理

项目描述

vtext

这是Rust vtextcrate的Python包装器。

此包旨在为机器学习应用提供高性能的文本数据摄取工具包。

特性

  • 分词:正则表达式分词器,Unicode分割+语言特定规则
  • 词干提取:Snowball(在Python中比NLTK快15-20倍)
  • 分词计数:将分词计数转换为稀疏矩阵以用于机器学习库。类似于scikit-learn中的CountVectorizerHashingVectorizer,但功能更少。
  • Levenshtein编辑距离;Sørensen-Dice,Jaro,Jaro Winkler字符串相似度

安装

vtext需要Python 3.6+,numpy 1.15+,可以使用以下命令安装:

pip install vtext

文档

项目文档:vtext.io/doc/latest/index.html

许可证

vtext采用Apache许可证,版本2.0发布。