为日本文文本的MeCab词法分析器提供的Python包装器
项目描述
这是为MeCab提供的日本文文本词法分析器Python包装器。它目前适用于Python 3.8及以上版本。
注意:如果使用MacOS Big Sur,由于pip的问题,您需要将pip升级到20.3或更高版本才能使用wheel。
不需要用英语写issue。
请注意,Windows wheel需要Microsoft Visual C++ Redistributable,因此请确保已安装。
基本用法
>>> import MeCab
>>> wakati = MeCab.Tagger("-Owakati")
>>> wakati.parse("pythonが大好きです").split()
['python', 'が', '大好き', 'です']
>>> tagger = MeCab.Tagger()
>>> print(tagger.parse("pythonが大好きです"))
python python python python 名詞-普通名詞-一般
が ガ ガ が 助詞-格助詞
大好き ダイスキ ダイスキ 大好き 形状詞-一般
です デス デス です 助動詞 助動詞-デス 終止形-一般
EOS
mecab-python3
的API紧密遵循MeCab本身的API,即使这使其不太“Pythonic”。有关更多信息,请参阅官方MeCab文档。
安装
二进制轮适用于MacOS X、Linux和Windows(64位),当您使用pip
时默认安装。
pip install mecab-python3
这些轮子包含MeCab库的副本,但不包含字典。为了使用MeCab,您需要安装一个字典。《unidic-lite》是一个不错的选择。
pip install unidic-lite
要使用pip从源代码构建,
pip install --no-binary :all: mecab-python3
字典
为了使用MeCab,您必须安装一个字典。MeCab有许多可用的字典。以下推荐的UniDic包包含了一些便于使用的微小修改:
- unidic:最新的完整UniDic。
- unidic-lite:稍微修改过的UniDic 2.1.2,因其小巧而选择。
以下字典由于多年未维护,不建议使用,但可用于与旧应用程序兼容:
有关字典之间差异的更多详细信息,请参阅此处。
常见问题
如果您在尝试运行MeCab时遇到RuntimeError
,以下是一些需要检查的事项
Windows Redistributable
您必须安装此内容才能在Windows上使用此包。
安装字典
运行pip install unidic-lite
并确认它工作。如果这解决了您的问题,那么您要么没有安装字典,要么需要像这样指定您的字典路径
tagger = MeCab.Tagger('-r /dev/null -d /usr/local/lib/mecab/dic/mydic')
注意:在Windows上,使用nul
代替/dev/null
。或者,如果您有mecabrc
,您可以使用-r
之后的路径。
指定meabrc
如果您收到此错误
error message: [ifs] no such file or directory: /usr/local/etc/mecabrc
您需要指定一个mecabrc
文件。指定一个空文件是可以的,只要它存在。您可以使用-r
指定mecabrc
。在Debian或Ubuntu上可能需要这样做,其中mecabrc
位于/etc/mecabrc
。
您可以像这样指定一个空的mecabrc
:
tagger = MeCab.Tagger('-r/dev/null -d/home/hoge/mydic')
使用不支持的输出模式,如-Ochasen
Chasen输出不是MeCab的内置功能,您必须在您的dicrc
或mecabrc
中指定它。值得注意的是,Unidic不包括Chasen输出格式。请参阅MeCab文档。
替代方案
- fugashi是MeCab的Cython包装器,具有Pythonic接口,由本库的当前维护者提供
- SudachiPy是一个现代化的分词器,具有积极维护的字典
- pymecab-ko是基于meCab-python3的韩语MeCab分叉mecab-ko的包装器
- KoNLPy是一个包括MeCab包装器的韩语NLP库
许可
与MeCab本身一样,mecab-python3
是由Taku Kudo taku@chasen.org和日本电信电话公司版权免费的软件,并按3条款BSD许可证分发(见文件BSD
)。或者,它可以在GNU通用公共许可证第2版(见文件GPL
)或GNU较少的通用公共许可证第2.1版(见文件LGPL
)的条款下重新分发。
项目详情
下载文件
下载适合您平台的应用程序。如果您不确定选择哪个,请了解有关 安装包的更多信息。
源分发
构建分发
散列值 用于 mecab_python3-1.0.9-cp312-cp312-win_amd64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | b3ef376016cdef012c62b92ea30c3aadcb12349c3afac8df7ade2eafe3850fd2 |
|
MD5 | 6691f3592806ca524c30264415bfef7f |
|
BLAKE2b-256 | 66f362d2fe94c62f2ac42c391add32129cb368aa368696c50959dc9cbd90acae |
散列值 用于 mecab_python3-1.0.9-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | e1c79542fd92ac4ecdd9740077df6ddb095fa322a13f660f83ef43f43fbe0877 |
|
MD5 | a0838d574ac0b0f31129f7ceaff54226 |
|
BLAKE2b-256 | 96989abdb668f5d5a8beb559c4e60d2a5e95e19650703af06f1e8504701f2269 |
散列值 用于 mecab_python3-1.0.9-cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | c5a7936271d44c4ec6231ddb5fed53a404302ec48201b784c85f19989452c0f2 |
|
MD5 | 5225a5ca6f93b2f93bff50532da6c9e3 |
|
BLAKE2b-256 | 40497a12e3d0539405e8d0627874bcae3b364f62f37883db0949303f4693eb37 |
散列值 用于 mecab_python3-1.0.9-cp312-cp312-macosx_11_0_arm64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 09c5a2c08533f691fdad6ead373cea860b85acd5dede770f9627654712d47fa0 |
|
MD5 | 87c0ae0319b1223a3aa2919afc5dbdff |
|
BLAKE2b-256 | 440f70df4c46bf28c44e347323aa3fc9bee5192e10bb19015a9439995708a6c1 |
散列值 用于 mecab_python3-1.0.9-cp312-cp312-macosx_10_9_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | cd494bef7377d7b1789778d82c861eed9a6ee08de9b0d7d38641284dfc584015 |
|
MD5 | cd6f8fce742d7042cafeb6a86b3677e3 |
|
BLAKE2b-256 | 1e2d7565d697955e571f7d218a0397b4492a1e3a6d85ddce7226ac8fe87feed6 |
散列值 用于 mecab_python3-1.0.9-cp312-cp312-macosx_10_9_universal2.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | a29211f50109849ae4d8b1901014fa1f0e792b86d3b45921f1971ea15c0b7c02 |
|
MD5 | 16a6008f6b546f8f7e02d24d2bdd29ea |
|
BLAKE2b-256 | 5282f2d11a2cd2542ce46f7a2efc26636adef4b243aa9c5e18fcdaf367290406 |
散列值 用于 mecab_python3-1.0.9-cp311-cp311-win_amd64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | c861ed23ec0e0fb0f295ca1119067a9b8f221f50621d720b0c030977a00ba0da |
|
MD5 | 9355b528177f6203765b8c97f8302ac8 |
|
BLAKE2b-256 | f923355877b98a0715dd0a0e2a920adc34a6e49b43237465913a2e7922e70915 |
散列值 用于 mecab_python3-1.0.9-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 2ad8814e7527b975a0152106b3199c3008b3e02009530e8ddc82a3aec736ec05 |
|
MD5 | c63736bb9d65c6d92e6079b2974ee498 |
|
BLAKE2b-256 | 4a389a0fc4c9c27a2c1540fc5453bee4350e0376c2382c7ef9bb72302ed4b493 |
散列值 用于 mecab_python3-1.0.9-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 346b553e06ac619a5013c750baf11f81b967c391734c7ddef250ba80986eff1d |
|
MD5 | 8640fb1c94d876d419cfa1c42276a53c |
|
BLAKE2b-256 | 6ce5b7f0e38a3c0f2d30d4c0c4df18dc74da599995a447c108dbf11bda75137f |
散列值 用于 mecab_python3-1.0.9-cp311-cp311-macosx_11_0_arm64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | cfb874e08e2277317334459dbe89444c72d75b29e0cd29d5f8b0c200b10684c0 |
|
MD5 | d5807c1297a06bddb9064105449776ea |
|
BLAKE2b-256 | 6e9612848206f05e1e3352acf2c351b04adb45861ff2c3aebd8706d77322ccbc |
哈希值 对于 mecab_python3-1.0.9-cp311-cp311-macosx_10_9_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 2220967c7c1027ff6d71cee1a08b2917f42e0a179f43069a6cc1e362d825630a |
|
MD5 | 5454bd600255ef13e78d64ed88b65177 |
|
BLAKE2b-256 | 86f37cbc3f18ff2d49dce3418a669d3c41a006ada3f9044d7820a7a402637dc9 |
哈希值 对于 mecab_python3-1.0.9-cp311-cp311-macosx_10_9_universal2.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 920fd996217cd0946fcc38448c11a215780285cce7d248008549fb64780c8445 |
|
MD5 | 3a6cbaa120f5dd3f89dc7958d419417a |
|
BLAKE2b-256 | aaf23a30750f7a4829798f587000a2c33ba3ee572de6b4fdd21a44f5237a7325 |
哈希值 对于 mecab_python3-1.0.9-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 52697413a98f9614df3811166c2c9780e9d4254c8038f9a9a496580f98424f4c |
|
MD5 | 319960acc11495857779d538720bbd5c |
|
BLAKE2b-256 | 9b7e29dd338e62dfbfaa0b656442d2a31a6d822c048a247dabae5a22608ae88a |
哈希值 对于 mecab_python3-1.0.9-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 8047db1a2abf8b5cc251a92e0758c26543625013cc9150ab6d8ca66b4de789a1 |
|
MD5 | 27f28f0c7a0da944f8faa6dabd175795 |
|
BLAKE2b-256 | ac71d35284aa9976ef302ffe0c3e8ac1577cc7c493d54ab42a9acf9040757f0d |
哈希值 对于 mecab_python3-1.0.9-cp310-cp310-macosx_11_0_arm64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | fb0289922db4c3fa8a0e07a3cb00842e3446ae8f1a81b2527774d33289be1756 |
|
MD5 | 0f9477b81b8af06945fa058811b60707 |
|
BLAKE2b-256 | ee1772563f960962e7231f079e5b995fc5bb7193b2d5cd4f51e06ee37a566e9a |
哈希值 对于 mecab_python3-1.0.9-cp310-cp310-macosx_10_9_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 3a28e443fb85e6b5d39ff7f2b6885f7b42b7e88f8a646640656d08048bf6daf3 |
|
MD5 | af37cb35f63363e842b915c24c2c9143 |
|
BLAKE2b-256 | 5cdd87f16f33a3d44bae9afdd987c0d89a1dea9220a0550898ad035a910d8181 |
哈希值 对于 mecab_python3-1.0.9-cp310-cp310-macosx_10_9_universal2.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | f335f924b2ddd495b7e8e8e194014085a3231fe470d1d4da752b463feef0986c |
|
MD5 | d12fa542e26d4eef845e984f3e9ea21b |
|
BLAKE2b-256 | a4780abf304699c05fa80a7d35654996df0b28b2122674609571be0e77047e45 |
哈希值 对于 mecab_python3-1.0.9-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 7b3cb42213af56c7d50e657fdd6757d48a06e2d851f1495172b9602602c70548 |
|
MD5 | 4969871e1384b752d4ece1df62a566bd |
|
BLAKE2b-256 | 31db70656bff3b713e631deb406ba684357bb97456cdfb7a33e16bd4956bc0f4 |
哈希值 对于 mecab_python3-1.0.9-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 673e2cf3e31030ef2e2f7a96fc4f4c8bb5673336483a8546d69c0f19f34f0e78 |
|
MD5 | 91ccbec2c3c73e7f026dbbf90d3efc60 |
|
BLAKE2b-256 | 8be33cca210e52ad501d4e4ac7373b94cf614fcabe4e8ddbab21f0593501d923 |
哈希值 对于 mecab_python3-1.0.9-cp39-cp39-macosx_11_0_arm64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | a658c4ca3e36f61472a648d19559d98d3c47bbecba4e611b681afa0f7651a1c7 |
|
MD5 | c976fa5b57e5475b8b3effe096017343 |
|
BLAKE2b-256 | fbe6b3881489d72f7263d07b7ad00c7fc96328ba84e65755124c6fc82c46c7d3 |
哈希值 用于 mecab_python3-1.0.9-cp39-cp39-macosx_10_9_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 93247a6a5ffcb91102a6a84b86bac264c309f2517370cfdbaaf9388975189639 |
|
MD5 | 783ba6bc2af5227e1c14f4a2d1d1339a |
|
BLAKE2b-256 | 95c39bf8f585659c3d8ca4c3a2b6e8e59991529a3bbd02963fd18784655f7b6b |
哈希值 用于 mecab_python3-1.0.9-cp39-cp39-macosx_10_9_universal2.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 7180579dba525cdf082bef413ccbbc53087cd799846794eee626d920a591eb25 |
|
MD5 | b56220578991129190100a246f537980 |
|
BLAKE2b-256 | 6a5127bc9c0764bb66c7f553d347e92e6d185ee33ca798882d2d3a3d1c55c704 |
哈希值 用于 mecab_python3-1.0.9-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 4676475b7fe53431c0cfb0c1953a4e162cf3abfca912bcee358042645b28c0bd |
|
MD5 | aed6d04939484c0d0d0bb74c524f3643 |
|
BLAKE2b-256 | b2cc947e04e08f009b22f82fde88d0c63b22a6396a0bcc40a64153a3b8397165 |
哈希值 用于 mecab_python3-1.0.9-cp38-cp38-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 3574d6c8aca17c16f3f12c28eda6b151263688a886833f8ef83391b85ec8d95f |
|
MD5 | 7824591eae70d46dc93f34693047353c |
|
BLAKE2b-256 | f18fae950a3d77da129a055d390bcea8fe80c41533bcee04d08ef3a3e6802c63 |
哈希值 用于 mecab_python3-1.0.9-cp38-cp38-macosx_11_0_arm64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 1de6ba0012538f016232be1f1853cec314c97a38667fbba795151d9644d0427f |
|
MD5 | 618bb915c70ee930e38102a8b60a7a01 |
|
BLAKE2b-256 | 0f818dcc9fbc3f31d5e80a31c08f71316b88a06c4dcf3c1020a4e46dc0392f8f |
哈希值 用于 mecab_python3-1.0.9-cp38-cp38-macosx_10_9_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | fdefc23384b439abd104370694d44feb6f9fbc6587e47797e7d240e12e293fa6 |
|
MD5 | 605e3066a56c24ff8bf1d3b679cfb9f5 |
|
BLAKE2b-256 | ffe7cec416bdcb24a79ff4582bdaf70aaebb99dfa867129141cab1c71328ce68 |
哈希值 用于 mecab_python3-1.0.9-cp38-cp38-macosx_10_9_universal2.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 784f178beffc35a38c44074b020ae87ecc7f2dc8e9d17450e399aee36a965b5b |
|
MD5 | 7f18808a97a103e5bfd88848a7db15cb |
|
BLAKE2b-256 | ea5ac82fbb3f90d91da643fd28251f63642dac0f6aa17c57f635c9484e0d26f3 |
哈希值 用于 mecab_python3-1.0.9-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | a367595535562bcd25a2643e7a20bc058ab28ee9e2e186c576a005f1578f1a95 |
|
MD5 | 3ea1f9d8933aaf5f8d1db80fa4800efe |
|
BLAKE2b-256 | eabe12d1ec12a3d4308f7738efa773097ab7318359115bff456d80929c2cfbab |
哈希值 用于 mecab_python3-1.0.9-cp37-cp37m-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | d125b7bc9f8cfa1a03d20d84c4118c0166288cedac9abf9b21a910c65d250aef |
|
MD5 | c3615690e4d54cff9807cb082a1d8001 |
|
BLAKE2b-256 | d3fe8aab5e2632ca4e87ed34f43ebbb5d0fecb8c49c102bd878485a6183e0b7f |
哈希值 用于 mecab_python3-1.0.9-cp37-cp37m-macosx_10_9_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 200c76d17a270eadd7e39ddeff243495cb24d514cadda01d8a69903a9d82f303 |
|
MD5 | 5420e85440e4472079785c8008b0e8a8 |
|
BLAKE2b-256 | a2b8ed06b31202e933b715e6f3d128dc44f777518a725266067f956a208c1455 |
哈希值 用于 mecab_python3-1.0.9-cp36-cp36m-macosx_10_9_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 6c2429796c84a81608f120b7443ae531e5ea416234a077d5111f15f09569b714 |
|
MD5 | 147b2a39f5b20b69741fb5ad25d45bdf |
|
BLAKE2b-256 | 2e3ef0a036be71cd70f0ac031bd7270ac518dcd75fc34a15a19c481295183d7c |