nmt · PyPI · Python 包索引

NLPIA第二版神经机器翻译

项目描述

# 神经机器翻译 (NMT)

## 描述

这是NLPIA第二版的神经机器翻译包。目前支持使用1层GRU的西班牙语-英语Seq2Seq模型，具有词袋的准确度。

## 安装

如果您只想从PyPI通道安装nmt包

`console $ pip install nmt==0.0.4`

如果您想修改源代码以运行实验，您需要在环境中安装依赖项，然后以–editable模式安装包。

### 环境

依赖项

NLTK
editdistance

创建一个conda环境，您可以安装所有依赖项，如pytorch、pandas、nltk、spacy和scikit-learn。Jupyter也已安装，以便开发者在jupyter控制台（ipython）中进行实验，数据科学家可以使用jupyter笔记本。

`console $ conda update -y -n base -c defaults conda $ conda create -y -n nmt 'python=3.7.9' $ conda env update -n nmt -f environment.yml $ conda activate nmt || source activate nmt`

## 使用

### 训练NMT模型

激活已安装nmt包的conda环境
nmt –config ${model_hyperparameter_json} –epochs ${num_epoch} –data_path ${training_file} –model_checkpoint_dir ${export_path} –metrics_dir ${metrics_path}

### 参数

模型超参数Json：配置文件名称（位于实验子目录下）
时期：时期数量
训练文本文件：训练语料库目录（.txt）
模型检查点路径：保存模型检查点的目录
度量目录：保存学习曲线和模型度量的目录

## 路线图 - [ ] 0. [在 README.md 中添加单元测试徽章](https://docs.gitlab.com/ee/user/project/badges.html) - [ ] 0. 推送发布到 PyPI: git tag -a 0.0.6 -m 'toy_problem.py works!' && python setup.py sdist bdist_wheel upload - [x] 1. 使用 GRU 单元设置简单的解码器-编码器模型，将 BLEU 分数作为评估指标 - [x] 2. 进行超参数搜索 - [x] 3. 将注意力机制添加到解码器-编码器模块 - [ ] 4. 集成来自 BERT 或其他模型的迁移学习

## 目录结构

源目录内的代码结构：- experiments: 存储超参数的子模块，以 json 格式存储并检索为配置 - models: 存储解码器、编码器和 Seq2Seq 模型的子模块 - utils: 包含词字典和数据预处理函数的子模块 - main_script.py: 启动模型训练的脚本 - training.py: 完整训练过程的脚本

## 致谢/参考文献

[Benjamin Etienne 的仓库](https://github.com/b-etienne/Seq2seq-PyTorch/)
[PyTorch 关于 Seq2Seq 的文档](https://pytorch.ac.cn/tutorials/intermediate/seq2seq_translation_tutorial.html)

项目详情

版本历史发布通知 | RSS 源

此版本

0.0.6

2021 年 3 月 14 日

0.0.4

2021 年 1 月 4 日

0.0.3

2021 年 1 月 3 日

下载文件

下载适用于您的平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分发

nmt-0.0.6.tar.gz (15.7 MB 查看哈希值)

上传时间 2021 年 3 月 14 日 源

构建分发

nmt-0.0.6-py2.py3-none-any.whl (35.4 kB 查看哈希值)

上传时间 2021 年 3 月 14 日 Python 2 Python 3

nmt-0.0.6.tar.gz 的哈希值

nmt-0.0.6.tar.gz 的哈希值
算法	哈希摘要
SHA256	`65db964c0afd5b0dbc4baecdce736f53222f63b791958176b5771db78a005096`
MD5	`224eab69378f90e8f4a6e1f0454b3bf5`
BLAKE2b-256	`e3861714a0e335a6b32717eab401c7dcc50fe2bb2a65b1f4963af72c5c01a608`

nmt-0.0.6-py2.py3-none-any.whl 的哈希值

nmt-0.0.6-py2.py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`a6d5ee7dbff9695244bbdb2a2b9f60bcb3fc0c05659efb968d1ca49a0bcddfee`
MD5	`ccd8f069b5096261f1d6b8468fc4f1ae`
BLAKE2b-256	`0bb9903db2223856e659edbe3fc86f9c509b0ba159013a2b3f07bf8a36d42114`