跳转到主要内容

一个用于检查音标转写的Python库

项目描述

这是一个尝试创建跨语言的音标字母表,作为IPA方言的实现,可用于跨语言的语言比较方法。

基本思想是提供一个固定的符号集用于音标表示,并附带一个完整的描述,遵循IPA的传统。这个列表本质上是可扩展的,当出现新的语言时,它可以链接到替代数据集,如Mielke的(2008)P-Base和PHOIBLE。

除了对符号的描述外,我们还提供了一系列脚本,可用于测试数据集如何反映我们的跨语言标准,以及它偏离标准到何种程度。这样,想要以严格标准发布的语音转写数据的语言学家可以使用我们的工具并将他们的数据映射到CLPA。通过符合我们的白名单(并在我们遗漏对数据集描述至关重要的音素时通知我们,以便我们可以扩展CLPA),社区可以确保我们在词汇数据集之间具有最大程度的可比性。

## 初始数据集

我们的初始数据集(文件clpa/clpa-data/clpa.main.json)目前包含1192个符号,包括辅音、元音、双元音、声调和三个标记(用于单词和词素边界)。原始数据受P-Base项目中使用的IPA描述的启发,我们主要遵循他们的符号约定,但添加了缺少在他们的库存中的声调字母和符号,并将它们的描述特征重新排列为现在为声音的主要类别定义的不同类。

此外,数据集包含不出现在我们白名单中的符号转换指令集。在这里,我们区分

  • 显式映射(clpa/clpa-data/explicit.tsv),它是对输入段和输出段进行显式映射,输入段完全采用。例如,考虑[ʔʲ],我们将其映射到[ʔj],或[uu],我们将其映射到[uː]。

  • 别名符号(clpa/clpa-data/alias.tsv),这些是一对多映射,将长度为1的Unicode符号映射,当我们在白名单中找不到符号时,通常将其应用于符号。例如,考虑[ʦ],我们将其映射为[ts]。

  • 要忽略的符号(clpa/clpa-data/delete.tsv),这些是我们从输入数据中忽略的长度为1的符号,然后检查我们是否可以找到映射。例如,比较符号[t͡s]中的组合标记,我们将其删除以映射到[ts]。

  • 要转换为模式的符号(clpa/patterns.tsv):这些是可能减少的操作,我们尽可能地减少这些操作,但在某些情况下,基于模式的应用更改是有用的,例如在“aspiration”不是用上标字母标记的数据集中,我们就会将所有爆破音+h的实例转换为爆破音+ʰ。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分发

pyclpa-1.0.0.tar.gz (91.7 kB 查看哈希值)

上传时间 源代码

支持者