从维基词典抓取音素到音节数据
项目描述
WikiPron
WikiPron 是一个用于从 Wiktionary 中挖掘多语言发音数据的命令行工具和 Python API,同时也是一个使用此工具挖掘出的发音词典数据库。
如果您在研究中使用了 WikiPron,请引用以下文献:
Jackson L. Lee, Lucas F.E. Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy, 和 Kyle Gorman (2020)。在《第 12 届语言资源与评估会议论文集》中,《使用 WikiPron 进行大规模多语言发音挖掘》。[链接] [bibtex]
命令行工具
安装
pip install wikipron
用法
快速开始
安装后,终端命令 wikipron
将可用。以下是一个基本示例,该命令抓取了法语 G2P 数据:
wikipron fra
指定语言
语言由三个字母的 ISO 639-3 语言代码表示,例如,fra
代表法语。以下是可抓取的语言的完整列表,这些语言在 Wiktionary 中都有发音条目。[链接]
指定方言
可以使用 --dialect
标志可选地指定目标方言。方言名称可以在 Wiktionary 的转录中找到。例如,"(UK, US) IPA: /təˈmɑːtəʊ/"。要限制为方言的并集,请使用管道字符 '|': 例如,--dialect='General American | US'
。即使此标志的值不同,也会选择缺乏方言指定的转录。
指定转录级别
默认情况下,WikiPron 选择括号中的广泛发音 /like this/。可以使用 --narrow
标志选择窄式转录 [like this]。请注意,某些语言只有广泛或窄式转录(例如,俄语只有后者)。
分割
默认情况下,使用 segments
库将转录分割为空白字符。分割通常将 IPA 标点符号和修饰符放在“父”符号上。例如,[kʰæt] 显示为 kʰ æ t
。可以使用 --no-segment
标志禁用此功能。
括号
一些转录包含括号以表示替代发音。除非使用 --no-skip-parens
标志,否则在抓取时忽略括号(但不包括内容)。
输出
抓取的数据组织成每行一个 <单词,发音> 对,单词和发音之间用制表符分隔。请注意,发音是 国际音标 (IPA),用空格分隔,以正确处理组合和修饰符标点符号,以便于建模,例如,我们有 kʰ æ t
而不是 k ʰ æ t
。
为了说明,以下是 WikiPron 抓取的法国数据片段:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃
默认情况下,抓取的数据出现在终端中。要保存数据到 TSV 文件,请将标准输出重定向到您选择的文件名。
wikipron fra > fra.tsv
高级选项
wikipron
终端命令有一系列选项可以配置您的抓取运行。要获取选项的完整列表,请运行 wikipron -h
。
Python API
底层模块也可以从 Python 中使用。标准工作流程如下:
import wikipron
config = wikipron.Config(key="fra") # French, with default options.
for word, pron in wikipron.scrape(config):
...
数据
我们还可以提供使用 WikiPron 矿掘的超过 300 万个单词/发音对数据库。
模型
我们在单独的存储库中托管图形到音素模型和建模软件。
开发
存储库
WikiPron 的源代码托管在 GitHub 上 https://github.com/CUNY-CL/wikipron
,那里的开发也在进行。
对于尚未通过 pip
发布或自行修改代码库的最新更改,您可以通过 GitHub 和 git
获取最新源代码
-
在您的 GitHub 账户上创建
wikipron
存储库的分支。 -
本地,确保您处于某种类型的虚拟环境(venv、virtualenv、conda 等)中。
-
在虚拟环境中以“可编辑”模式下载并安装库,以及核心和开发依赖项
git clone https://github.com/<your-github-username>/wikipron.git cd wikipron pip install -U pip setuptools pip install -r requirements.txt pip install --no-deps -e .
我们在 CHANGELOG.md
中记录了显著的变化。
贡献
对于问题、错误报告和功能请求,请提交问题。
如果您想为 wikipron
代码库做出贡献,请参阅 CONTRIBUTING.md。
许可协议
WikiPron 在 Apache 2.0 许可下发布。有关详细信息,请参阅 LICENSE.txt。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。
源代码分发
构建分发
wikipron-1.3.3.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 5eb3d1c1bdba89baa7479d7822dde779e19d12aa9ad49d530984927df058fa15 |
|
MD5 | 933e6e1d6566d1feb30ca7f7a447b7c9 |
|
BLAKE2b-256 | d58419a9a932e4c45be859ed9bb51e68ab91620b0ee2cbc6459ec4bae2942111 |
wikipron-1.3.3-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6c29497dc83ddbbccda8f0d3594c45dba7918a05e322ad9d900daed784b435e8 |
|
MD5 | 117c593988e0610124272e81e0159151 |
|
BLAKE2b-256 | 669103960973748cc260b3dc555ed1921b0a5b150b96b9c6b609ac8965f749e7 |