NLPIA第二版神经机器翻译
项目描述
# 神经机器翻译 (NMT)
## 描述
这是NLPIA第二版的神经机器翻译包。目前支持使用1层GRU的西班牙语-英语Seq2Seq模型,具有词袋的准确度。
## 安装
如果您只想从PyPI通道安装nmt包
`console $ pip install nmt==0.0.4`
如果您想修改源代码以运行实验,您需要在环境中安装依赖项,然后以–editable模式安装包。
### 环境
依赖项
NLTK
editdistance
创建一个conda环境,您可以安装所有依赖项,如pytorch、pandas、nltk、spacy和scikit-learn。Jupyter也已安装,以便开发者在jupyter控制台(ipython)中进行实验,数据科学家可以使用jupyter笔记本。
`console $ conda update -y -n base -c defaults conda $ conda create -y -n nmt 'python=3.7.9' $ conda env update -n nmt -f environment.yml $ conda activate nmt || source activate nmt`
## 使用
### 训练NMT模型
激活已安装nmt包的conda环境
nmt –config ${model_hyperparameter_json} –epochs ${num_epoch} –data_path ${training_file} –model_checkpoint_dir ${export_path} –metrics_dir ${metrics_path}
### 参数
模型超参数Json:配置文件名称(位于实验子目录下)
时期:时期数量
训练文本文件:训练语料库目录(.txt)
模型检查点路径:保存模型检查点的目录
度量目录:保存学习曲线和模型度量的目录
## 路线图 - [ ] 0. [在 README.md 中添加单元测试徽章](https://docs.gitlab.com/ee/user/project/badges.html) - [ ] 0. 推送发布到 PyPI: git tag -a 0.0.6 -m 'toy_problem.py works!' && python setup.py sdist bdist_wheel upload - [x] 1. 使用 GRU 单元设置简单的解码器-编码器模型,将 BLEU 分数作为评估指标 - [x] 2. 进行超参数搜索 - [x] 3. 将注意力机制添加到解码器-编码器模块 - [ ] 4. 集成来自 BERT 或其他模型的迁移学习
## 目录结构
源目录内的代码结构:- experiments: 存储超参数的子模块,以 json 格式存储并检索为配置 - models: 存储解码器、编码器和 Seq2Seq 模型的子模块 - utils: 包含词字典和数据预处理函数的子模块 - main_script.py: 启动模型训练的脚本 - training.py: 完整训练过程的脚本
## 致谢/参考文献
[Benjamin Etienne 的仓库](https://github.com/b-etienne/Seq2seq-PyTorch/)
[PyTorch 关于 Seq2Seq 的文档](https://pytorch.ac.cn/tutorials/intermediate/seq2seq_translation_tutorial.html)
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源分发
构建分发
nmt-0.0.6.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 65db964c0afd5b0dbc4baecdce736f53222f63b791958176b5771db78a005096 |
|
MD5 | 224eab69378f90e8f4a6e1f0454b3bf5 |
|
BLAKE2b-256 | e3861714a0e335a6b32717eab401c7dcc50fe2bb2a65b1f4963af72c5c01a608 |
nmt-0.0.6-py2.py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a6d5ee7dbff9695244bbdb2a2b9f60bcb3fc0c05659efb968d1ca49a0bcddfee |
|
MD5 | ccd8f069b5096261f1d6b8468fc4f1ae |
|
BLAKE2b-256 | 0bb9903db2223856e659edbe3fc86f9c509b0ba159013a2b3f07bf8a36d42114 |