跳转到主要内容

Python工具,用于从po文件中提取句子并创建用于NLP机器学习和神经机器翻译的语言数据集

项目描述

PO2Dataset

Python工具,用于从po文件中提取句子并创建用于NLP机器学习和神经机器翻译的语言数据集。

此命令行工具旨在创建适用于 Argos Train 的数据集包。

如何安装

手动安装

使用 virtualenv 创建虚拟环境

git clone https://github.com/urtzai/po2dataset.git
virtualenv po2dataset
cd po2dataset
source ./bin/activate

快速入门指南

创建Argos Train适合的数据集

python po2dataset/po2dataset.py <path_to_po_file> --name <project_name> --source_code <source_lang_code> --target_code <target_lang_code> --ref "Some reference information of the project"

位置

  • name: 项目的名称
  • source_code: 源语言代码 (ISO 639)
  • target_code: 目标语言代码 (ISO 639)
  • ref: 项目的某些参考信息

支持

如果您遇到任何问题,请不要犹豫,发布问题或在此项目中发起拉取请求以贡献。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

po2dataset-0.1.0b0.tar.gz (4.1 kB 查看哈希值)

上传时间

构建分发

po2dataset-0.1.0b0-py3-none-any.whl (4.7 kB 查看哈希值)

上传时间 Python 3

支持