A Cython MeCab包装器,用于快速、Pythonic的日语分词。
项目描述
fugashi
fugashi是一个Cython包装器,用于MeCab,这是一个日语分词和形态分析工具。提供了Linux、OSX(Intel)和Win64的Wheel版本,并且UniDic安装简单。
不需要用英语写issue。
查看交互式演示,查看博客文章以了解fugashi存在的背景和一些设计决策,或查看本指南以了解日语分词的基本介绍。
如果您使用的是没有提供Wheel的平台,您需要先安装MeCab。建议您从源代码安装。如果您需要在Windows上从源代码构建,建议使用@chezou的分支;有关官方存储库问题的说明,请参阅问题#44。
没有Wheel的已知平台
- 基于musl的发行版,如alpine #77
- PowerPC
- Windows 32位
用法
from fugashi import Tagger
tagger = Tagger('-Owakati')
text = "麩菓子は、麩を主材料とした日本の菓子。"
tagger.parse(text)
# => '麩 菓子 は 、 麩 を 主材 料 と し た 日本 の 菓子 。'
for word in tagger(text):
print(word, word.feature.lemma, word.pos, sep='\t')
# "feature" is the Unidic feature data as a named tuple
安装字典
fugashi需要一个字典。推荐使用UniDic,并提供了两个易于安装的版本。
- unidic-lite,Unidic 2.1.2的略微修改版本(来自2013年),相对较小
- unidic,最新的UniDic 3.1.0,在磁盘上占770MB,需要单独下载步骤
如果您只是想确保一切正常工作,可以从unidic-lite
开始,但为了更严肃的处理,建议使用unidic
。对于生产使用,通常还需要生成自己的字典;有关详细信息,请参阅MeCab文档。
要获取这两个字典中的任何一个,您可以直接使用pip
安装,或执行以下操作
pip install 'fugashi[unidic-lite]'
# The full version of UniDic requires a separate download step
pip install 'fugashi[unidic]'
python -m unidic download
有关可用的不同MeCab字典的更多信息,请参阅这篇文章。
字典使用
在编写fugashi时,假设您会使用Unidic处理日语,但它支持任意词典。
如果您使用除了Unidic之外的词典,可以使用GenericTagger如下
from fugashi import GenericTagger
tagger = GenericTagger()
# parse can be used as normal
tagger.parse('something')
# features from the dictionary can be accessed by field numbers
for word in tagger(text):
print(word.surface, word.feature[0])
您还可以创建一个词典包装器以获取特征信息作为命名元组。
from fugashi import GenericTagger, create_feature_wrapper
CustomFeatures = create_feature_wrapper('CustomFeatures', 'alpha beta gamma')
tagger = GenericTagger(wrapper=CustomFeatures)
for word in tagger.parseToNodeList(text):
print(word.surface, word.feature.alpha)
引用
如果您在研究中使用fugashi,如果您能引用此论文将不胜感激。您可以在ACL Anthology或Arxiv上阅读。
@inproceedings{mccann-2020-fugashi,
title = "fugashi, a Tool for Tokenizing {J}apanese in Python",
author = "McCann, Paul",
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.nlposs-1.7",
pages = "44--51",
abstract = "Recent years have seen an increase in the number of large-scale multilingual NLP projects. However, even in such projects, languages with special processing requirements are often excluded. One such language is Japanese. Japanese is written without spaces, tokenization is non-trivial, and while high quality open source tokenizers exist they can be hard to use and lack English documentation. This paper introduces fugashi, a MeCab wrapper for Python, and gives an introduction to tokenizing Japanese.",
}
替代方案
如果您在使用fugashi时遇到问题,请随时提交问题。然而,有些情况下可能最好使用不同的库。
- 如果您根本不想安装MeCab,请尝试SudachiPy。
- 如果您需要处理韩语,请尝试pymecab-ko或KoNLPy。
许可和版权声明
fugashi是在MIT许可证的条款下发布的。请广泛传播。
fugashi是MeCab的包装器,fugashi的wheel包括MeCab二进制文件。MeCab是由Taku Kudo <taku@chasen.org>
和日本电信电话公司提供的版权免费软件,并在BSD许可证下重新分发。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪一个,请了解有关安装包的更多信息。
源分布
构建分布
fugashi-1.3.2.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 964980b5d227ee41af7570542aaab56b1298c44416271cba5d8ff9a58ab40748 |
|
MD5 | b3f0f981b5f6ebbeba4b285c2d4bd929 |
|
BLAKE2b-256 | 8e735e160668189cb4d7fa671eb589886fd8afaa2fbf4c257ca77743e39dc9a9 |
fugashi-1.3.2-pp310-pypy310_pp73-macosx_10_9_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | bc99b6e8f003c7a0e53e0f486caa1547f0ca8f86777610ea92af6e2f40ca212a |
|
MD5 | 48229db32dc5b4bd30a0ad6bcb27834c |
|
BLAKE2b-256 | aa967f762bd0a88b88556d1314c5244f8cd1abd76e750f35c09d9ece9f5be895 |
fugashi-1.3.2-pp39-pypy39_pp73-macosx_10_9_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 21d2dac5b085632f1f9a24edf5d7ccaeb3272be672e4aa37a0b219fc7a3b0655 |
|
MD5 | cc14d4a253d264fba6524158a1b88f07 |
|
BLAKE2b-256 | e618b9b2db4d763e6c9a73c758ed5bc1446d30177b5b903e165a884f1d3ca406 |
fugashi-1.3.2-pp38-pypy38_pp73-macosx_10_9_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 54865ba40c35b3180d9c7cf629a1f3e430bca626dcd6ee6288bc5245c044edea |
|
MD5 | afe279af3903e9536457e0da368d0374 |
|
BLAKE2b-256 | 17a747ba3e4afc97a2dc568dd8a2e09187761f935d1bd977d6200f86ba25cd74 |
fugashi-1.3.2-pp37-pypy37_pp73-macosx_10_9_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4c7e97655d1d3f3f5d5c5da6ac7f31f187177a39f1557f9d3f683772a2e30815 |
|
MD5 | 505c3ad05fd53a1a41a251764d92438c |
|
BLAKE2b-256 | 71bcc701c413f56eafb88bdfae288b8d94bbb51fdff3f8a32333f3029936a131 |
fugashi-1.3.2-cp312-cp312-win_amd64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | da61498017e5cbee65c6eff88a13e17b45a5e3b0428733e99168344b8ff95da5 |
|
MD5 | c2bdddb840fb89093c8e30ab6cfe4f19 |
|
BLAKE2b-256 | 86d949484b50c6df110e1a24bc71958899ddd454e7d48227696d29503d91ed1e |
fugashi-1.3.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | ea942e45214a99844146ce0e0f1ac43bff6e2ccbf6d1cbfde4f2bed9ca0951b1 |
|
MD5 | ec233cc9508d0a76cac98a3ffd328fee |
|
BLAKE2b-256 | d90fdfceef3b7e26da34556b8c3ab33a901977da069726da012bc57cfa2749a7 |
fugashi-1.3.2-cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4e24864e92ad3acf3c0b8f645e33d543fe569544bb6ee9728cb281325aa76d06 |
|
MD5 | 0dea6e84c8cb186db9df7841e8822edd |
|
BLAKE2b-256 | 22c5ff64272679471658d6c6313f647d0ad0a1a254fe73d26c60cf263e0bd6d0 |
fugashi-1.3.2-cp312-cp312-macosx_11_0_arm64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3a2d8aecb2a239de33bcb70806b7688001e72f68bde68961c6f2899155f15f87 |
|
MD5 | 27da6486d3c73e399d8d42c5b08b5d5e |
|
BLAKE2b-256 | 8b0e785dbaa42e0e7ef2a17e6c3c6eca48ef862340d92051f2b257a660944752 |
fugashi-1.3.2-cp312-cp312-macosx_10_9_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 49b44261f2051c43a9e31816d85bb89e5563c3e4c03ff7830d1ebf5942888cf9 |
|
MD5 | 9ae6b948580ed0755139df658766e23a |
|
BLAKE2b-256 | ad8a751ddea5821266135bc9e4fb0565744197180b5d91ec5cc021946020606d |
fugashi-1.3.2-cp312-cp312-macosx_10_9_universal2.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | fcfb3908059f4dd15d7fda64edd3c027b4da668bf1731f147aa888f5db01bd6c |
|
MD5 | 053bf0514a36833a7bcc984b6e59d725 |
|
BLAKE2b-256 | 34adaceb8b1fef41308db782265e81d30e400957e8ec4508b25287df1af4f641 |
fugashi-1.3.2-cp311-cp311-win_amd64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 9774bb52930fa17ebab17f8bcf2b5d20b6ef529b425ea65affb29a3307c003f8 |
|
MD5 | 0f3ccde63f2b2d6271d384bd2fbff2bf |
|
BLAKE2b-256 | 200467db7a11e20e12f01618e6942d6ce2a3c1c88ade0b6878edba17d8e8722d |
哈希值 for fugashi-1.3.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 85d8e3a9e9d92f555525b2719153e7d3e4ec71d0bae0b076b5495634039b8490 |
|
MD5 | a95b70b7290765d824507d908fb55877 |
|
BLAKE2b-256 | 24227acc383ae61ea7f35705b60e76d3e527d13f0af81b3570b810da7af4470f |
哈希值 for fugashi-1.3.2-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2b2ebe0d6722e05000a959df303e06937939009f4eef0b8692018eb019496013 |
|
MD5 | 23843cda827263b3ed471ebf1739a1df |
|
BLAKE2b-256 | 8251a5054f29165a437eedf845ed9cb1dac410ece2c2f0f16411db6be6c11319 |
哈希值 for fugashi-1.3.2-cp311-cp311-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6fdef6be3489279c670459a55b2dfa876c0856b3fc96b3590aa801f37af6b827 |
|
MD5 | b589f920262aca0a8da2853acec0a6db |
|
BLAKE2b-256 | 27f22a0498bfdb7dd8a80b8901bc059ff87495684ba17c66e59cfc980f996756 |
哈希值 for fugashi-1.3.2-cp311-cp311-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 9c9fb77c42e6b421e5c20f74179ed479255545b40a28f9983f264a8b19a30374 |
|
MD5 | 4fa0fcdcb2a2859ffca4c9d5c8e62121 |
|
BLAKE2b-256 | e8051ac2398b7c1d12d024fb03586b679787ac52fe4f53c1644824b9e77e5f86 |
哈希值 for fugashi-1.3.2-cp311-cp311-macosx_10_9_universal2.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 50243df8758f5fb90bd2801e557168e613df61fa4d488acfe364070e8a4a234c |
|
MD5 | 30f637d842985c33c206ceb0e01a6f60 |
|
BLAKE2b-256 | 8f5f8f9675a04ab663f61799bb6fe2c7d6392d1103693730b03db3614e751fa1 |
哈希值 for fugashi-1.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6b915d936e3eb30d50fde86889f8ab56968e5cb4d0ceeb497ac1bb6c58531f87 |
|
MD5 | 9b6e2a47a56ad132cedfebe9bde6e9c8 |
|
BLAKE2b-256 | f26793fe7ae8606c44ea28fd6db3edf0d490a1bc9e7ba9702b43be5a753cb8af |
哈希值 for fugashi-1.3.2-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | af7abac3037c7421b075782897766b8f453f28ef3bbadd3e7d69c9df409a48a8 |
|
MD5 | 739ad43444f71bfc9879a880651c0b24 |
|
BLAKE2b-256 | c09aab902f4ea4deae2ced08f9565bbcb7047a9a1520c0993bfc8faccad7c94b |
哈希值 for fugashi-1.3.2-cp310-cp310-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6b2e21be33ed72621d9f4a601a33c00b38052df947f297d792b221a33337f094 |
|
MD5 | 9d709d76591f9bacf294bdeb4430cc5d |
|
BLAKE2b-256 | 9e494d0f9a30a18021bdc06e0610e7466a889332f6880f4db3388366ee11ac33 |
哈希值 for fugashi-1.3.2-cp310-cp310-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6c67023cdc1b059b05751c1785c794c24d8862f37a16cdb805e33c7d7ae0c19d |
|
MD5 | 6e72fa62e8696db6c1522d082c96a2ab |
|
BLAKE2b-256 | 40a39a7826472b3753436ebc2e81ecca4eb554c2c191f09f59b87a0f22f51891 |
哈希值 for fugashi-1.3.2-cp310-cp310-macosx_10_9_universal2.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 583e7a14e6ddf8a03b500bec30d708f72e98035ab43e2c92940dd9c36ee63de9 |
|
MD5 | 784a40898ca5f6826118341ff7b107b7 |
|
BLAKE2b-256 | f2d61bfc92a8dd39ec44d6df86a426211e8eff34c9c044613b5591a29270290e |
哈希值 for fugashi-1.3.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 409b83f136a3c2da805cd999bd7e1792e7c71fa8e0637f77bdec2b6fd070a3bb |
|
MD5 | 50dda76dc499a804c3430521a8faa685 |
|
BLAKE2b-256 | a8ff242c6925b847aeb8f3ca915acdb708c305181b461eee183269bdf514fc52 |
哈希值 for fugashi-1.3.2-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 11e95f57b78152be3a0a1a1e77d7887cfc25c30412d5f5825711b75ea6d415be |
|
MD5 | baff97d8ebb465178278238031a81bad |
|
BLAKE2b-256 | cba621a71f536e61c3ec5fbcec02b43a2b20398976804f9221c34dc0503ef74e |
哈希值 for fugashi-1.3.2-cp39-cp39-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 5a640da3824aba966209fc425b2b19c38d22a3da637f83b4a7df83cb94376b87 |
|
MD5 | 895219bc11fbb572a5f0ececa57c4eee |
|
BLAKE2b-256 | 35982f84da4a4c2568de8ffcb467ac9be266c6bb11b7a8a8c2a9f65b282196f6 |
哈希值 for fugashi-1.3.2-cp39-cp39-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 85de463fc30390c06d985f52fcfd422acf7ada6b13f723721ca964854b9ae435 |
|
MD5 | 0582003be70b444664b44f882b667eb0 |
|
BLAKE2b-256 | 4e7ef23c21f72ae28e78407bd1eb2a40ce88ec6178451e1b9d595941a6b01bba |
哈希值 for fugashi-1.3.2-cp39-cp39-macosx_10_9_universal2.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 7e392f2c57068bb892c45c1b69067c3dde94b633c81c725a613ee7defe09de47 |
|
MD5 | e749bc02cffe368358a76e40f816d30f |
|
BLAKE2b-256 | 7cf1fb3e5dc9205e1bf6178a7b1fb4ac462d82aad7a0d4974215d9c02c54f8a0 |
哈希值 for fugashi-1.3.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f1cb923fbdfccc5d750accd32c9b929603852d6626b162834370b4b3245bb8c2 |
|
MD5 | ba87d40e625e84409214ed5c99282098 |
|
BLAKE2b-256 | 6d0e23636b23a36d810254ec29eaf0b741fa5b8acd44553c292209b6625826af |
哈希值 for fugashi-1.3.2-cp38-cp38-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2d3345d2c61dd9d056442e271887a189cc2831a5365c3b8bdcccd4395b54f4fe |
|
MD5 | 68dd9baace9c68046b3cb099f3e25881 |
|
BLAKE2b-256 | 207f975cd54c1f56679d66ff2ed870ff6a29b0ff54a74df1b6d642930e4e325f |
哈希值 for fugashi-1.3.2-cp38-cp38-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1ad77258f97547d906cc822192c6c2c99a54290b0ca8c127368e11e0a0365245 |
|
MD5 | 6504184285655ca2a5af49ff1110f52f |
|
BLAKE2b-256 | 82ac159aaac06d68e39d8874b97cfdfaef7e647d8ffa677d6224733e43bab679 |
哈希值 for fugashi-1.3.2-cp38-cp38-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 13001a977d0a87e174defaa7a7d5c512da0fd021beabe80ce8eb94694a9563a8 |
|
MD5 | ce3636ba73728e091dcadd67059de884 |
|
BLAKE2b-256 | 6f6b9bbd84d417215e116af56ef3c1bf08e0edb47fbe5b36395bc43308fc7bd8 |
哈希值 for fugashi-1.3.2-cp38-cp38-macosx_10_9_universal2.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 107a37140c51396776810294aa47d6b92f767f834f1b9e50ca35046a63f31dfd |
|
MD5 | 6663eca4c6c4bb5e6eb16b4ac67fde0a |
|
BLAKE2b-256 | 432abf85ec28701f204f5296d1ac7964200fb30a3e80345417b8f5c33b1465ee |
哈希值 for fugashi-1.3.2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a9ed34c799e945f013345a02cf27a5bc97e383b76c3127afe09008cf92b5858d |
|
MD5 | 832889447c167563396a88be5999b634 |
|
BLAKE2b-256 | 28f77dee2cbb87428c8be79811da4d20fccc3979284ac6ce7780d760e2a48086 |
哈希值 用于 fugashi-1.3.2-cp37-cp37m-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 63a6c360c1d5e8c4ffa55f1459550146a204401c5fb8cc01d4ba593586ed328a |
|
MD5 | aee603726c1d6a24b16af9a4b776ca1e |
|
BLAKE2b-256 | bdc2de9dde0edf9f70fb241daaae635a92b0a103faa677e78b06698a0aaf72e6 |
哈希值 用于 fugashi-1.3.2-cp37-cp37m-macosx_10_9_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 18cd37369c1df25e56ef55ea31b3daaa14cfaae805d0ad51ae1274f749f3748d |
|
MD5 | 28939bc1cda63ba77b97bd091b0dff9b |
|
BLAKE2b-256 | 6500e8ec7dff6b2c7599d930e7a978850e849201f011c0ebae362cbcc7e985cb |