一种简单、确定性和可扩展的数字逆文本归一化方法
项目描述
一种简单、确定性和可扩展的逆文本归一化 (ITN) 方法,用于数字。
概述
此包将原始语音文本(语音识别输出)转换为用户友好的文本。它最适合将语音数字转换为数字,或者不改变单词顺序的其他翻译任务。提供了一个csv文件,用于定义将语音标记转换为文本标记的基本规则,并可以应用额外的预处理/后处理以满足更具体的格式化要求,例如日期、度量、货币等。
以下示例是通过运行此脚本产生的。
安装
此包支持Python版本 >= 3.7
从PyPI安装
pip install itnpy2
本地安装
pip install -e .
测试
要运行测试,请在此存储库的根目录中使用pytest
pytest
问题
本软件包已在有限的测试用例集上进行了验证。测试用例。对于任何翻译错误,请随时发起拉取请求并更新 failing.csv,包含输入、预期输出和错误;谢谢!
引用
如果您觉得这项工作很有用,请考虑引用它。
@misc{hsu2022itn,
title = {A simple, deterministic, and extensible approach to inverse text normalization for numbers},
author = {Brandhsu},
howpublished = {https://github.com/barseghyanartur/itnpy},
year = {2022}
}
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装软件包 的信息。
源代码分发
itnpy2-0.0.7.tar.gz (9.2 kB 查看哈希值)
构建分发
itnpy2-0.0.7-py3-none-any.whl (6.7 kB 查看哈希值)
关闭
itnpy2-0.0.7.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 67466fe9bd00c9e11ca6250e6f39dc84ee86f2005a2c679251e65e1ee5c5a116 |
|
MD5 | e0b99aae67dbf081ca4f4f6c91ea9ebb |
|
BLAKE2b-256 | 7728e3fccdc8d5747faf82b4d85dbb43472e446eefee98fa574baa0e4a2b94de |
关闭
itnpy2-0.0.7-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a1b8fd82edc98be9ed99e527bbacf72febdd65a81f4a3d926723de02b03b0c0d |
|
MD5 | cd4e9c9879f3c7a045fae5b787568915 |
|
BLAKE2b-256 | 281928e2c85e7f1fcb61c0960cf8a96d2781f484db23be42ae96cd8d2adba187 |