跳转到主要内容

Python中的粤语语言学和自然语言处理

项目描述

https://jacksonllee.com/logos/pycantonese-logo.png

完整文档:https://pycantonese.org


PyPI version Supported Python versions CircleCI Builds

PyCantonese是Python库,用于粤语语言学和自然语言处理(NLP)。目前实现的功能(更多即将到来!)

  • 访问和搜索语料库数据

  • Jyutping罗马化的解析和转换工具

  • 解析粤语文本

  • 停用词

  • 分词

  • 词性标注

下载和安装

下载并安装最新稳定版

$ pip install --upgrade pycantonese

想了解更多?请查看快速入门页面。

咨询

如果您团队需要使用 PyCantonese 的专业协助,我们提供针对学术和商业团体的一对一咨询和培训服务。请通过电子邮件联系Jackson L. Lee

支持

如果您觉得 PyCantonese 有用并想提供支持,买杯咖啡会很有帮助!给我买杯咖啡吧!

如何引用

PyCantonese 由 Jackson L. Lee 编写和维护。

介绍 PyCantonese 的演讲

李,杰克逊·L. 2015. PyCantonese:大数据时代下的粤语语言学。在中文大学香港儿童双语研究中心的演讲。2015年9月15日。有关笔记+幻灯片

许可

MIT 许可证。请参阅 GitHub 源代码中的 LICENSE.txt 以获取详细信息。

PyCantonese 包含的 HKCanCor 数据集在格式上对其原始来源进行了大量修改。原始数据集具有 CC BY 许可证。请参阅 GitHub 源代码中的 pycantonese/data/hkcancor/README.md 以获取详细信息。

PyCantonese 中包含的 rime-cantonese 数据(2021.05.16 版本)用于词分割和字符到粤语拼音的转换。此数据具有 CC BY 4.0 许可证。请参阅 GitHub 源代码中的 pycantonese/data/rime_cantonese/README.md 以获取详细信息。

致谢

PyCantonese 中包含的具有许可协议的精彩资源

  • HKCanCor

  • rime-cantonese

提供反馈、错误报告等的个人(按姓氏字母顺序排列)

  • @cathug

  • 陈立同

  • 陈珍妮

  • @g-traveller

  • 韩瑞秋

  • 赖瑞安

  • 林查明

  • 刘查克明

  • 马希姆

  • @richielo

  • @rylanchiu

  • 斯蒂芬·席勒

  • 崔子谦

  • 袁伟文

变更日志

请参阅 CHANGELOG.md

设置开发环境

正在开发的最新代码可在 Github 上找到:jacksonllee/pycantonese。您需要在您的系统上安装 Git LFS(如果您已安装 Homebrew 在 MacOS 上,请运行 brew install git-lfs,或者如果您在 Ubuntu 上,请运行 sudo apt-get install git-lfs)。要获取此版本的实验性功能或进行开发

$ git clone https://github.com/jacksonllee/pycantonese.git
$ cd pycantonese
$ git lfs pull
$ pip install -r dev-requirements.txt
$ pip install -e .

运行测试和样式检查

$ pytest -vv --doctest-modules --cov=pycantonese pycantonese docs/source
$ flake8 pycantonese
$ black --check pycantonese

构建文档网站文件

$ python docs/source/build_docs.py

项目详情


下载文件

下载您平台对应的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分发

pycantonese-3.4.0.tar.gz (3.8 MB 查看哈希值)

上传时间 源代码

构建分发

pycantonese-3.4.0-py3-none-any.whl (3.9 MB 查看哈希值)

上传时间 Python 3

由以下支持