Python工具,用于从po文件中提取句子并创建用于NLP机器学习和神经机器翻译的语言数据集
项目描述
PO2Dataset
Python工具,用于从po文件中提取句子并创建用于NLP机器学习和神经机器翻译的语言数据集。
此命令行工具旨在创建适用于 Argos Train 的数据集包。
如何安装
手动安装
使用 virtualenv 创建虚拟环境
git clone https://github.com/urtzai/po2dataset.git
virtualenv po2dataset
cd po2dataset
source ./bin/activate
快速入门指南
创建Argos Train适合的数据集
python po2dataset/po2dataset.py <path_to_po_file> --name <project_name> --source_code <source_lang_code> --target_code <target_lang_code> --ref "Some reference information of the project"
位置
支持
如果您遇到任何问题,请不要犹豫,发布问题或在此项目中发起拉取请求以贡献。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分发
po2dataset-0.1.0b0.tar.gz (4.1 kB 查看哈希值)
构建分发
po2dataset-0.1.0b0-py3-none-any.whl (4.7 kB 查看哈希值)
关闭
po2dataset-0.1.0b0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a2df36f46904e7d74a8d4368bf1dd5a33b06d79b102866c0f6d66ae99f165480 |
|
MD5 | 905cda915af08c11dae1b85d25f60159 |
|
BLAKE2b-256 | 8fbe8af23f2439161832724d214e0ddf643b81aaabab3f4a51ea4d50d186d391 |
关闭
po2dataset-0.1.0b0-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f0138563e7d025d05f2771b7185d0347941c396b988bf791204a8a21eee384f5 |
|
MD5 | 475cb9157d9fd3335fcbb1318a0374b5 |
|
BLAKE2b-256 | 44311a8af9d96a038fd8f89b7afd6ad36bd437a6932018b885e97baf4074dbb8 |