跳转到主要内容

一种简单、确定性和可扩展的数字逆文本归一化方法

项目描述

PyPI Version Supported Python versions Build Status Documentation Status MIT

一种简单、确定性和可扩展的逆文本归一化 (ITN) 方法,用于数字。

概述

此包将原始语音文本(语音识别输出)转换为用户友好的文本。它最适合将语音数字转换为数字,或者不改变单词顺序的其他翻译任务。提供了一个csv文件,用于定义将语音标记转换为文本标记的基本规则,并可以应用额外的预处理/后处理以满足更具体的格式化要求,例如日期、度量、货币等。


Terminal

以下示例是通过运行此脚本产生的。

安装

此包支持Python版本 >= 3.7

PyPI安装

pip install itnpy2

本地安装

pip install -e .

测试

要运行测试,请在此存储库的根目录中使用pytest

pytest

问题

本软件包已在有限的测试用例集上进行了验证。测试用例。对于任何翻译错误,请随时发起拉取请求并更新 failing.csv,包含输入、预期输出和错误;谢谢!

引用

如果您觉得这项工作很有用,请考虑引用它。

@misc{hsu2022itn,
  title        = {A simple, deterministic, and extensible approach to inverse text normalization for numbers},
  author       = {Brandhsu},
  howpublished = {https://github.com/barseghyanartur/itnpy},
  year         = {2022}
}

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装软件包 的信息。

源代码分发

itnpy2-0.0.7.tar.gz (9.2 kB 查看哈希值)

上传时间 源代码

构建分发

itnpy2-0.0.7-py3-none-any.whl (6.7 kB 查看哈希值)

上传时间 Python 3

支持者