跳转到主要内容

NLPIA第二版神经机器翻译

项目描述

# 神经机器翻译 (NMT)

## 描述

这是NLPIA第二版的神经机器翻译包。目前支持使用1层GRU的西班牙语-英语Seq2Seq模型,具有词袋的准确度。

## 安装

如果您只想从PyPI通道安装nmt包

`console $ pip install nmt==0.0.4`

如果您想修改源代码以运行实验,您需要在环境中安装依赖项,然后以–editable模式安装包。

### 环境

依赖项

  • NLTK

  • editdistance

创建一个conda环境,您可以安装所有依赖项,如pytorch、pandas、nltk、spacy和scikit-learn。Jupyter也已安装,以便开发者在jupyter控制台(ipython)中进行实验,数据科学家可以使用jupyter笔记本

`console $ conda update -y -n base -c defaults conda $ conda create -y -n nmt 'python=3.7.9' $ conda env update -n nmt -f environment.yml $ conda activate nmt || source activate nmt`

## 使用

### 训练NMT模型

  1. 激活已安装nmt包的conda环境

  2. nmt –config ${model_hyperparameter_json} –epochs ${num_epoch} –data_path ${training_file} –model_checkpoint_dir ${export_path} –metrics_dir ${metrics_path}

### 参数

  • 模型超参数Json:配置文件名称(位于实验子目录下)

  • 时期:时期数量

  • 训练文本文件:训练语料库目录(.txt)

  • 模型检查点路径:保存模型检查点的目录

  • 度量目录:保存学习曲线和模型度量的目录

## 路线图 - [ ] 0. [在 README.md 中添加单元测试徽章](https://docs.gitlab.com/ee/user/project/badges.html) - [ ] 0. 推送发布到 PyPI: git tag -a 0.0.6 -m 'toy_problem.py works!' && python setup.py sdist bdist_wheel upload - [x] 1. 使用 GRU 单元设置简单的解码器-编码器模型,将 BLEU 分数作为评估指标 - [x] 2. 进行超参数搜索 - [x] 3. 将注意力机制添加到解码器-编码器模块 - [ ] 4. 集成来自 BERT 或其他模型的迁移学习

## 目录结构

源目录内的代码结构:- experiments: 存储超参数的子模块,以 json 格式存储并检索为配置 - models: 存储解码器、编码器和 Seq2Seq 模型的子模块 - utils: 包含词字典和数据预处理函数的子模块 - main_script.py: 启动模型训练的脚本 - training.py: 完整训练过程的脚本

## 致谢/参考文献

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分发

nmt-0.0.6.tar.gz (15.7 MB 查看哈希值)

上传时间

构建分发

nmt-0.0.6-py2.py3-none-any.whl (35.4 kB 查看哈希值)

上传时间 Python 2 Python 3

支持者:

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面