语言识别工具包
项目描述
lidtk
lidtk - 语言识别工具包 - 被编写用于研究语言性能的当前状态。
安装
安装lidtk的推荐方法是
$ pip install lidtk --user
如果您想获取最新版本
$ git clone https://github.com/MartinThoma/lidtk.git; cd lidtk
$ pip install -e . --user
我建议获取WiLI-2018数据集。
用法
$ lidtk --help
Usage: lidtk [OPTIONS] COMMAND [ARGS]...
Options:
--version Show the version and exit.
--help Show this message and exit.
Commands:
analyze-data Utility function for the languages...
analyze-unicode-block Analyze how important a Unicode block is for...
char-distrib Use the character distribution language...
cld2 Use the CLD-2 language classifier.
create-dataset Create sharable dataset from downloaded...
download Download 1000 documents of each language.
google-cloud Use the CLD-2 language classifier.
langdetect Use the langdetect language classifier.
langid Use the langid language classifier.
map Map predictions to something known by WiLI
nn Use a neural network classifier.
textcat Use the CLD-2 language classifier.
tfidf_nn Use the TfidfNNClassifier classifier.
例如
$ lidtk cld2 predict --text 'This is a test.'
eng
通常的顺序是
lidtk download
:请使用WiLI-2018而不是自己下载数据集。lidtk create-dataset
:如果您使用WiLI-2018,可以跳过此步骤lidtk analyze-unicode-block --start 0 --end 128
lidtk tfidf_nn train vectorizer --config lidtk/classifiers/config/tfidf_nn.yaml
lidtk tfidf_nn train vectorizer --config lidtk/classifiers/config/tfidf_nn.yaml
lidtk tfidf_nn wili --config lidtk/classifiers/config/tfidf_nn.yaml
或者直接使用一个
$ lidtk cld2 predict --text 'This text is written in some language.'
eng
开发
使用tox
检查测试。
项目详细信息
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源码分发
lidtk-0.3.0.tar.gz (38.7 kB 查看哈希值)
构建分发
lidtk-0.3.0-py3-none-any.whl (54.7 kB 查看哈希值)
关闭
lidtk-0.3.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 29f277d41ba39648b446a78c25eaafdd6bc96374badd7518b6d6ed130e557fe8 |
|
MD5 | e7849e262b236ff0c9175d966df6ac87 |
|
BLAKE2b-256 | 7c8652f8e3acd4548e04a8904f94662db9646ddac4eda66b17b8b07210688e00 |
关闭
lidtk-0.3.0-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 953560374940a4ad5f0fb4325e29a76a473ac16b7382ee38c586985ccc21d0c0 |
|
MD5 | f8d0eb4e00a3dc2bebc4de60ab1e2b24 |
|
BLAKE2b-256 | 6aab2bbace881056c7f2b0b999cafd8bb1d8dd3e68f10241b469475a6c55deda |