多语言自然语言工具,包装NLTK和其他系统。
项目描述
此软件包提供NLTK和其他系统的包装,以提供方便的自然语言工具,例如
标记化器
停用词去除器
单词频率查找
词形还原器(将单词还原为其基本形式,可能考虑词性标记)
东亚语言分析器(例如,我们目前使用MeCab过程来查找日语的单词分隔)
对于某些语言的单词频率,metanl使用利兹大学翻译研究中心的语料库(http://corpus.leeds.ac.uk/list.html),其数据在Creative Commons Attribution许可下发布。
作者:Rob Speer