mecab-ko-dic为Python打包
项目描述
mecab-ko-dic
这是一个用于MeCab分词器的韩语词典,打包用于Python,与mecab-python3或fugashi一起使用。
你是否应该使用这个?
我们认为(在Luminoso)这可能是比仅按空格分割文本更好地找到韩语单词标记的方法。我们也知道MeCab并非为韩语设计。但它比我们尝试过的其他方法更好地提供了我们需要的标记。
我们打包此词典的一个原因是在wordfreq中使用它,该工具需要有一组合理的、一致的标记,以便可以查找它们的频率,并且已经使用MeCab进行日语。
如果你不希望与已使用MeCab的现有工具进行互操作性,那么你可能比这个有更好的韩语NLP选项。
致谢
词典数据由Yongwoon Lee和Yungho Yu创建。我们已将其作为本包的一部分包含在内,并按照Apache License 2.0的条款。原始词典可以在这里找到。
将MeCab词典打包为Python存储库的想法以及实现此目的的代码结构来自Paul McCann的ipadic包。
用法
安装
pip install mecab-ko-dic
使用mecab-python3初始化
import MeCab
import mecab_ko_dic
tagger = MeCab.Tagger(mecab_ko_dic.MECAB_ARGS)
print(tagger.parse("안녕하세요세계."))
许可证
我们使用的数据以及本代码存储库本身均根据Apache License 2.0发布。请参阅本分发的LICENSE.txt文件。
项目详情
关闭
mebac-ko-dic-1.0.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3ba22858736e02e8a0e92f2a7f099528c733ae47701b29d12c75e982a85d1f11 |
|
MD5 | 0a7cd0f4d032f18fb8d3f7c63e45c180 |
|
BLAKE2b-256 | db86b88d823b0c912bb8e86584d697d51c866df567bd328f9196efab7835b8ab |