Python中的粤语语言学和自然语言处理
项目描述
PyCantonese是Python库,用于粤语语言学和自然语言处理(NLP)。目前实现的功能(更多即将到来!)
访问和搜索语料库数据
Jyutping罗马化的解析和转换工具
解析粤语文本
停用词
分词
词性标注
下载和安装
下载并安装最新稳定版
$ pip install --upgrade pycantonese
想了解更多?请查看快速入门页面。
咨询
如果您团队需要使用 PyCantonese 的专业协助,我们提供针对学术和商业团体的一对一咨询和培训服务。请通过电子邮件联系Jackson L. Lee。
支持
如果您觉得 PyCantonese 有用并想提供支持,买杯咖啡会很有帮助!给我买杯咖啡吧!
链接
如何引用
PyCantonese 由 Jackson L. Lee 编写和维护。
介绍 PyCantonese 的演讲
李,杰克逊·L. 2015. PyCantonese:大数据时代下的粤语语言学。在中文大学香港儿童双语研究中心的演讲。2015年9月15日。有关笔记+幻灯片。
许可
MIT 许可证。请参阅 GitHub 源代码中的 LICENSE.txt 以获取详细信息。
PyCantonese 包含的 HKCanCor 数据集在格式上对其原始来源进行了大量修改。原始数据集具有 CC BY 许可证。请参阅 GitHub 源代码中的 pycantonese/data/hkcancor/README.md 以获取详细信息。
PyCantonese 中包含的 rime-cantonese 数据(2021.05.16 版本)用于词分割和字符到粤语拼音的转换。此数据具有 CC BY 4.0 许可证。请参阅 GitHub 源代码中的 pycantonese/data/rime_cantonese/README.md 以获取详细信息。
标志
PyCantonese 标志是代表粤语的汉字“粤”,由 albino.snowman(Instagram 标识)进行艺术设计。
致谢
PyCantonese 中包含的具有许可协议的精彩资源
HKCanCor
rime-cantonese
提供反馈、错误报告等的个人(按姓氏字母顺序排列)
@cathug
陈立同
陈珍妮
@g-traveller
韩瑞秋
赖瑞安
林查明
刘查克明
马希姆
@richielo
@rylanchiu
斯蒂芬·席勒
崔子谦
袁伟文
变更日志
请参阅 CHANGELOG.md。
设置开发环境
正在开发的最新代码可在 Github 上找到:jacksonllee/pycantonese。您需要在您的系统上安装 Git LFS(如果您已安装 Homebrew 在 MacOS 上,请运行 brew install git-lfs,或者如果您在 Ubuntu 上,请运行 sudo apt-get install git-lfs)。要获取此版本的实验性功能或进行开发
$ git clone https://github.com/jacksonllee/pycantonese.git
$ cd pycantonese
$ git lfs pull
$ pip install -r dev-requirements.txt
$ pip install -e .
运行测试和样式检查
$ pytest -vv --doctest-modules --cov=pycantonese pycantonese docs/source
$ flake8 pycantonese
$ black --check pycantonese
构建文档网站文件
$ python docs/source/build_docs.py
项目详情
下载文件
下载您平台对应的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源代码分发
构建分发
pycantonese-3.4.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8c0768bbfbc9862b9a149525edfd24dc34f380d5d654fae3597da3f0951a0752 |
|
MD5 | 70aea9b4210540826362d0ba9ae6a753 |
|
BLAKE2b-256 | 44284b0cbc503f0be6dd4c55306d85643a785f64cd733778a79d472c779eb491 |
pycantonese-3.4.0-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2585ae8070cc6a3a32f1cf0fd395c93f10aa531272e5292c4d082215104d7958 |
|
MD5 | f4a0b519cd6f29010ddc2b56717f173b |
|
BLAKE2b-256 | d1b8bb21891cc1cc0466d15e211896b614c73b494434b837e326008b501851c0 |