跳转到主要内容

为日本文文本的MeCab词法分析器提供的Python包装器

项目描述

这是为MeCab提供的日本文文本词法分析器Python包装器。它目前适用于Python 3.8及以上版本。

注意:如果使用MacOS Big Sur,由于pip的问题,您需要将pip升级到20.3或更高版本才能使用wheel。

不需要用英语写issue。

请注意,Windows wheel需要Microsoft Visual C++ Redistributable,因此请确保已安装。

基本用法

>>> import MeCab
>>> wakati = MeCab.Tagger("-Owakati")
>>> wakati.parse("pythonが大好きです").split()
['python', 'が', '大好き', 'です']

>>> tagger = MeCab.Tagger()
>>> print(tagger.parse("pythonが大好きです"))
python  python  python  python  名詞-普通名詞-一般
                        助詞-格助詞
大好き  ダイスキ        ダイスキ        大好き  形状詞-一般
です    デス    デス    です    助動詞  助動詞-デス     終止形-一般
EOS

mecab-python3的API紧密遵循MeCab本身的API,即使这使其不太“Pythonic”。有关更多信息,请参阅官方MeCab文档

安装

二进制轮适用于MacOS X、Linux和Windows(64位),当您使用pip时默认安装。

pip install mecab-python3

这些轮子包含MeCab库的副本,但不包含字典。为了使用MeCab,您需要安装一个字典。《unidic-lite》是一个不错的选择。

pip install unidic-lite

要使用pip从源代码构建,

pip install --no-binary :all: mecab-python3

字典

为了使用MeCab,您必须安装一个字典。MeCab有许多可用的字典。以下推荐的UniDic包包含了一些便于使用的微小修改:

  • unidic:最新的完整UniDic。
  • unidic-lite:稍微修改过的UniDic 2.1.2,因其小巧而选择。

以下字典由于多年未维护,不建议使用,但可用于与旧应用程序兼容:

有关字典之间差异的更多详细信息,请参阅此处

常见问题

如果您在尝试运行MeCab时遇到RuntimeError,以下是一些需要检查的事项

Windows Redistributable

您必须安装此内容才能在Windows上使用此包。

安装字典

运行pip install unidic-lite并确认它工作。如果这解决了您的问题,那么您要么没有安装字典,要么需要像这样指定您的字典路径

tagger = MeCab.Tagger('-r /dev/null -d /usr/local/lib/mecab/dic/mydic')

注意:在Windows上,使用nul代替/dev/null。或者,如果您有mecabrc,您可以使用-r之后的路径。

指定meabrc

如果您收到此错误

error message: [ifs] no such file or directory: /usr/local/etc/mecabrc

您需要指定一个mecabrc文件。指定一个空文件是可以的,只要它存在。您可以使用-r指定mecabrc。在Debian或Ubuntu上可能需要这样做,其中mecabrc位于/etc/mecabrc

您可以像这样指定一个空的mecabrc

tagger = MeCab.Tagger('-r/dev/null -d/home/hoge/mydic')

使用不支持的输出模式,如-Ochasen

Chasen输出不是MeCab的内置功能,您必须在您的dicrcmecabrc中指定它。值得注意的是,Unidic不包括Chasen输出格式。请参阅MeCab文档

替代方案

  • fugashi是MeCab的Cython包装器,具有Pythonic接口,由本库的当前维护者提供
  • SudachiPy是一个现代化的分词器,具有积极维护的字典
  • pymecab-ko是基于meCab-python3的韩语MeCab分叉mecab-ko的包装器
  • KoNLPy是一个包括MeCab包装器的韩语NLP库

许可

与MeCab本身一样,mecab-python3是由Taku Kudo taku@chasen.org和日本电信电话公司版权免费的软件,并按3条款BSD许可证分发(见文件BSD)。或者,它可以在GNU通用公共许可证第2版(见文件GPL)或GNU较少的通用公共许可证第2.1版(见文件LGPL)的条款下重新分发。

项目详情


下载文件

下载适合您平台的应用程序。如果您不确定选择哪个,请了解有关 安装包的更多信息

源分发

mecab_python3-1.0.9.tar.gz (78.5 kB 查看哈希值)

上传时间

构建分发

mecab_python3-1.0.9-cp312-cp312-win_amd64.whl (501.6 kB 查看哈希值)

上传时间 CPython 3.12 Windows x86-64

mecab_python3-1.0.9-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (591.1 kB 查看哈希值)

上传时间 CPython 3.12 manylinux: glibc 2.17+ x86-64

mecab_python3-1.0.9-cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (569.0 kB 查看哈希值)

上传时间 CPython 3.12 manylinux: glibc 2.17+ ARM64

mecab_python3-1.0.9-cp312-cp312-macosx_11_0_arm64.whl (511.2 kB 查看哈希值)

上传时间 CPython 3.12 macOS 11.0+ ARM64

mecab_python3-1.0.9-cp312-cp312-macosx_10_9_x86_64.whl (514.2 kB 查看哈希值)

上传时间 CPython 3.12 macOS 10.9+ x86-64

mecab_python3-1.0.9-cp312-cp312-macosx_10_9_universal2.whl (554.8 kB 查看哈希值)

上传时间 CPython 3.12 macOS 10.9+ universal2 (ARM64, x86-64)

mecab_python3-1.0.9-cp311-cp311-win_amd64.whl (500.9 kB 查看哈希值)

上传时间 CPython 3.11 Windows x86-64

mecab_python3-1.0.9-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (588.8 kB 查看哈希值)

上传时间 CPython 3.11 manylinux: glibc 2.17+ x86-64

mecab_python3-1.0.9-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (567.5 kB 查看哈希值)

上传时间 CPython 3.11 manylinux: glibc 2.17+ ARM64

mecab_python3-1.0.9-cp311-cp311-macosx_11_0_arm64.whl (510.5 kB 查看哈希值)

上传时间 CPython 3.11 macOS 11.0+ ARM64

mecab_python3-1.0.9-cp311-cp311-macosx_10_9_x86_64.whl (513.4 kB 查看哈希值)

上传时间 CPython 3.11 macOS 10.9+ x86-64

mecab_python3-1.0.9-cp311-cp311-macosx_10_9_universal2.whl (553.4 kB 查看哈希值)

上传时间 CPython 3.11 macOS 10.9+ universal2 (ARM64, x86-64)

mecab_python3-1.0.9-cp310-cp310-win_amd64.whl (500.9 kB 查看哈希值)

上传时间 CPython 3.10 Windows x86-64

mecab_python3-1.0.9-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (581.7 kB 查看哈希值)

上传时间 CPython 3.10 manylinux: glibc 2.17+ x86-64

mecab_python3-1.0.9-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (560.2 kB 查看哈希值)

上传时间 CPython 3.10 manylinux: glibc 2.17+ ARM64

mecab_python3-1.0.9-cp310-cp310-macosx_11_0_arm64.whl (510.5 kB 查看哈希值)

上传时间 CPython 3.10 macOS 11.0+ ARM64

mecab_python3-1.0.9-cp310-cp310-macosx_10_9_x86_64.whl (513.4 kB 查看哈希值)

上传时间 CPython 3.10 macOS 10.9+ x86-64

mecab_python3-1.0.9-cp310-cp310-macosx_10_9_universal2.whl (553.4 kB 查看哈希值)

上传时间 CPython 3.10 macOS 10.9+ universal2 (ARM64, x86-64)

mecab_python3-1.0.9-cp39-cp39-win_amd64.whl (501.0 kB 查看哈希值)

上传时间 CPython 3.9 Windows x86-64

mecab_python3-1.0.9-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (581.6 kB 查看哈希值)

上传时间 CPython 3.9 manylinux: glibc 2.17+ x86-64

mecab_python3-1.0.9-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (559.9 kB 查看哈希值)

上传时间 CPython 3.9 manylinux: glibc 2.17+ ARM64

mecab_python3-1.0.9-cp39-cp39-macosx_11_0_arm64.whl (510.5 kB 查看哈希值)

上传时间 CPython 3.9 macOS 11.0+ ARM64

mecab_python3-1.0.9-cp39-cp39-macosx_10_9_x86_64.whl (513.4 kB 查看哈希值)

上传时间 CPython 3.9 macOS 10.9+ x86-64

mecab_python3-1.0.9-cp39-cp39-macosx_10_9_universal2.whl (553.4 kB 查看哈希值)

上传于 CPython 3.9 macOS 10.9+ universal2 (ARM64, x86-64)

mecab_python3-1.0.9-cp38-cp38-win_amd64.whl (501.2 kB 查看哈希值)

上传于 CPython 3.8 Windows x86-64

mecab_python3-1.0.9-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (577.8 kB 查看哈希值)

上传于 CPython 3.8 manylinux: glibc 2.17+ x86-64

mecab_python3-1.0.9-cp38-cp38-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (555.1 kB 查看哈希值)

上传于 CPython 3.8 manylinux: glibc 2.17+ ARM64

mecab_python3-1.0.9-cp38-cp38-macosx_11_0_arm64.whl (510.7 kB 查看哈希值)

上传于 CPython 3.8 macOS 11.0+ ARM64

mecab_python3-1.0.9-cp38-cp38-macosx_10_9_x86_64.whl (513.5 kB 查看哈希值)

上传于 CPython 3.8 macOS 10.9+ x86-64

mecab_python3-1.0.9-cp38-cp38-macosx_10_9_universal2.whl (553.6 kB 查看哈希值)

上传于 CPython 3.8 macOS 10.9+ universal2 (ARM64, x86-64)

mecab_python3-1.0.9-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (575.2 kB 查看哈希值)

上传于 CPython 3.7m manylinux: glibc 2.17+ x86-64

mecab_python3-1.0.9-cp37-cp37m-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (551.8 kB 查看哈希值)

上传于 CPython 3.7m manylinux: glibc 2.17+ ARM64

mecab_python3-1.0.9-cp37-cp37m-macosx_10_9_x86_64.whl (513.3 kB 查看哈希值)

上传于 CPython 3.7m macOS 10.9+ x86-64

mecab_python3-1.0.9-cp36-cp36m-macosx_10_9_x86_64.whl (513.0 kB 查看哈希值)

上传于 CPython 3.6m macOS 10.9+ x86-64

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面