跳转到主要内容

mecab-ko-dic为Python打包

项目描述

mecab-ko-dic

这是一个用于MeCab分词器的韩语词典,打包用于Python,与mecab-python3fugashi一起使用。

你是否应该使用这个?

我们认为(在Luminoso)这可能是比仅按空格分割文本更好地找到韩语单词标记的方法。我们也知道MeCab并非为韩语设计。但它比我们尝试过的其他方法更好地提供了我们需要的标记。

我们打包此词典的一个原因是在wordfreq中使用它,该工具需要有一组合理的、一致的标记,以便可以查找它们的频率,并且已经使用MeCab进行日语。

如果你不希望与已使用MeCab的现有工具进行互操作性,那么你可能比这个有更好的韩语NLP选项。

致谢

词典数据由Yongwoon Lee和Yungho Yu创建。我们已将其作为本包的一部分包含在内,并按照Apache License 2.0的条款。原始词典可以在这里找到。

将MeCab词典打包为Python存储库的想法以及实现此目的的代码结构来自Paul McCann的ipadic包

用法

安装

pip install mecab-ko-dic

使用mecab-python3初始化

import MeCab
import mecab_ko_dic
tagger = MeCab.Tagger(mecab_ko_dic.MECAB_ARGS)
print(tagger.parse("안녕하세요세계."))

许可证

我们使用的数据以及本代码存储库本身均根据Apache License 2.0发布。请参阅本分发的LICENSE.txt文件。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定该选择哪一个,请了解更多关于 安装包 的信息。

源分发

mecab-ko-dic-1.0.0.tar.gz (33.2 MB 查看哈希值)

上传时间

由以下支持