为机器翻译系统安排训练

这些详情未由PyPI验证

项目链接

项目描述

OpusTrainer

该训练器的目的是为用户提供一种灵活的方式来安排各种输入数据源，以及通过标题化、全部大写等来增强训练数据。当您有多个数据源，并且想首先在反向翻译数据上预训练模型，然后逐渐添加其他数据源，并最终一次性微调时，这特别有用。

此外，该工具特别适合训练多语言模型，因为它提供了一个简单的方式来定义来自不同语言来源的数据集的所需混合。

安装

您有两种选择：直接从PyPI安装

pip install opustrainer

或克隆此存储库，并在可编辑模式下安装它，这样您可以更改源，但仍可以使用所有命令

git clone git@github.com:hplt-project/opustrainer.git
cd opustrainer
pip install -e .

用法

% ./trainer.py --help
usage: trainer.py [-h] --config CONFIG [--temporary-directory TEMPORARY_DIR] [--state STATE_FILE] [--do-not-resume] [--sync] [trainer-command [arguments]]

Feeds marian tsv data for training.

options:
  -h, --help            show this help message and exit
  --config CONFIG, -c CONFIG
                        YML configuration input.
  --temporary-directory TEMPORARY_DIR, -t TEMPORARY_DIR
                        Temporary dir, used for shuffling and tracking state
  --state STATE_FILE    Path to trainer state file which stores how much of
                        each dataset has been read. Defaults to ${CONFIG}.state
  --sync                Do not shuffle in the background
  --do-not-resume, -d   Do not resume from the previous training state
  --no-shuffle, -n      Do not shuffle, for debugging

一旦您在配置文件中修复了路径，train_config.yml 您可以通过执行以下操作运行测试用例：

./trainer.py -c train_config.yml /path/to/marian -c marian_config --any --other --flags

您可以在/tmp/test中检查生成的混合文件。如果您的神经网络训练器不支持从stdin进行训练，您可以使用此工具生成训练数据集，然后在您的训练器实现中禁用数据重新排序或洗牌，因为您的训练输入应该是平衡的。

训练开始时，所有数据集都会被打乱。每次到达数据集的末尾，它都会重新打乱。在系统临时目录中打乱（点击查看），但可以使用--temporary-directory或TMPDIR环境变量重新定位。默认情况下，训练状态与配置文件保存在同一位置。如果训练中断，重新运行训练器应从上次中断的位置继续（具体取决于您的神经网络训练器已缓冲了多少，该部分将被跳过）。

配置文件

通过配置文件定义您的训练过程。您在上面定义数据集，然后是阶段，然后为每个阶段定义一个混合标准和阶段终止标准。以下是一个示例配置文件。trainer的路径是任何支持以stdin作为训练输入格式的神经网络训练器的路径。

# Datasets are already TSV files. We support reading gzip'd files, as well as multiple dataset file per name
datasets:
  clean: test/data/clean
  medium: test/data/medium
  dirty: test/data/dirty

stages:
  - start
  - mid
  - end

start:
  - clean 0.8
  - medium 0.2
  - dirty 0
  - until clean 2 # Until two epochs of clean

mid:
  - clean 0.6
  - medium 0.3
  - dirty 0.1
  - until medium 1

end:
  - clean 0.4
  - medium 0.3
  - dirty 0.3
  - until dirty 5 # use `inf` to mean until forever

modifiers:
- UpperCase: 0.05 # Apply uppercase randomly to 5% of sentences. See below
- TitleCase: 0.05

seed: 1111
trainer: /path/to/trainer/run.py

扩展阶段配置

如果您想更改特定阶段使用的修饰符，可以使用扩展阶段配置格式。如果在此处提到了modifiers，它将仅为此阶段覆盖整个课程定义的modifiers。

在扩展格式中，数据集列表定义在mix键中。您可以可选地添加一个modifiers键。例如

start:
  mix:
  - clean 0.8
  - medium 0.2
  - dirty 0
  - until clean 2 # Until two epochs of clean
  modifiers:
    - UpperCase: 0.05
    - TitleCase: 0.05

请注意，如果您愿意，可以使用YAML引用来广泛组合全局和局部修饰符。

修饰符

修饰符随机应用于进入训练器的句子。每个修饰符都有一个与之关联的概率，表示句子被修饰符修饰的机会。例如，概率为0.05的修饰符将影响大约每20个句子中的一个。

修饰符依次应用，按照您定义的顺序，所有修饰符都有自己的概率，而不考虑之前已应用的修饰符。例如，如果您有以下配置

modifiers:
- UpperCase: 0.05
- TitleCase: 0.05

这意味着每20个句子中有一个将被转换为大写，每20个句子中有一个将被转换为标题大小写。并且实际上是0.05 * 0.05，所以每400个句子中第一个将被转换为大写，然后是标题大小写。

UpperCase

将整个源句和目标句转换为大写，例如'heLLo'变为'HELLO'。

modifiers:
  - UpperCase: 0.05

TitleCase

将每个单词的第一个字母转换为大写，其余字母转换为小写。单词通过空格分割。例如'heLLo'变为'Hello'。

modifiers:
  - TitleCase: 0.05

Typos

在句子对的源侧引入错误。

修饰符本身的概率是句子受影响的概率。每种类型的错误的概率描述了单词受影响的概率。每种类型的错误在每个句子中最多出现一次。

您可以分别为每个修饰符指定一个概率。如果省略了任何错误类别，则其概率为0。或者，您可以省略所有错误类别。然后，所有错误类别都将有默认的10%概率。

modifiers:
- Typos: 0.05
  char_swap:     0.1 # Swaps two random consecutive word characters in the string.
  missing_char:  0.1 # Skips a random word character in the string.
  extra_char:    0.1 # Adds an extra, keyboard-neighbor, letter next to a random word character.
  nearby_char:   0.1 # Replaces a random word character with keyboard-neighbor letter.
  similar_char:  0.1 # Replaces a random word character with another visually similar character.
  skipped_space: 0.1 # Skips a random space from the string.
  random_space:  0.1 # Adds a random space in the string.
  repeated_char: 0.1 # Repeats a random word character.
  unichar:       0.1 # Replaces a random consecutive repeated letter with a single letter.

前缀

在源句之前添加目标句的一个随机子句。

这对于教会模型在用户绝对确信特定字符串必须出现在输出时强制解码该字符串非常有用。例如，I like pie. Me gustan los pasteles.变为__start__ los pasteles __end__ I like pie. Me gustan los pasteles.

注意：前缀修饰符必须始终作为最后一个修饰符使用，但理想情况下不应与“标签”一起使用。

modifiers:
 - Prefix: 0.5
   min_words: 2
   max_words: 5
   template: "__start__ {trg} __end__ "

在训练前生成词汇和标签

将来，这将由训练流水线处理，但在此之前，这里提供了基本脚本

用于生成对齐增强语料库的脚本

#!/bin/bash -v

# Usage: ./align_corpus.sh source_corpus target_corpus src trg

# install fast align
mkdir -p bin

# download and compile fast_align
if [ ! -e bin/fast_align ]; then
    git clone https://github.com/clab/fast_align
    mkdir -p fast_align/build
    cd fast_align/build
    cmake ..
    make -j4
    cp fast_align atools ../../bin
    cd ../../
fi

# Prepare the corpus for fast align
test -s $2/corpus.tmp.${3}-${4}.falign ||  cat $1 | sed 's/\t/ ||| /' > $2/corpus.tmp.${3}-${4}.falign

# Align it
test -s $2/align.${3}-${4}.s2t  || bin/fast_align -vod  -i $2/corpus.tmp.${3}-${4}.falign > $2/align.${3}-${4}.s2t
test -s $2/align.${3}-${4}.t2s  || bin/fast_align -vodr -i $2/corpus.tmp.${3}-${4}.falign > $2/align.${3}-${4}.t2s

test -s $2/corpus.${3}-${4}.aln || bin/atools -i $2/align.${3}-${4}.s2t -j $2/align.${3}-${4}.t2s -c grow-diag-final-and > $2/corpus.${3}-${4}.aln

用于创建带有标签支持的词汇的脚本

#!/usr/bin/env bash
#Usage ./vocab.sh en de path-to-corpora char-cov vocab_size

char_cov=${4:-'0.9995'} # Default char coverage
vocab_size=${5:-'32000'} # Default vocab size
# Set up some constants

# Language pairs
src=$1
trg=$2
prefix="--model_prefix=model.${src}-${trg}"

# Placeholders array
placeholders="--user_defined_symbols=__source__,__target__,__done__,__start__,__end__"

# Character coverage. CJK is recommended to have 0.9995, vocab languages proabbly you want 1.
char_cov="--character_coverage=${char_cov}"

# First clone and compile SPM
spm_exec="sentencepiece/build/src/spm_train"
if [ ! -e ${spm_exec} ]; then
    git clone https://github.com/google/sentencepiece.git
    cd sentencepiece
    mkdir build
    cd build
    cmake ..
    make -j4
    cd ..
    cd ..
    if [ ! -e ${spm_exec} ]; then
        echo "Failed to compile sentencepiece"
        exit 1
    fi
fi

$spm_exec --bos_id=-1 --eos_id=0 --unk_id=1 ${placeholders} ${char_cov} ${prefix} --vocab_size=${vocab_size} --input=${3} --input_sentence_size=20000000 --byte_fallback #--input_format=tsv seems broken

未来工作

术语支持（使用词典），其中增加不是通过使用对齐得分，而是从词典中取值。
一键运行训练

致谢

本项目已获得欧盟“地平线欧洲”研究和创新计划的支持，合同编号101070350，以及英国研究与创新（UKRI）根据英国政府的“地平线欧洲”资金担保[合同编号10052546]的支持。

项目详情

这些详情未由PyPI验证

项目链接

发布历史发布通知 | RSS源

本版本

0.2

2023年6月22日

0.1

2023年3月3日

下载文件

下载您平台上的文件。如果您不确定选择哪个，请了解更多关于安装软件包的信息。

源分布

opustrainer-0.2.tar.gz (34.4 kB 查看哈希值)

上传时间 2023年6月22日 源

构建分布

opustrainer-0.2-py3-none-any.whl (28.0 kB 查看哈希值)

上传时间 2023年6月22日 Python 3

opustrainer-0.2.tar.gz的哈希值

opustrainer-0.2.tar.gz的哈希值
算法	哈希摘要
SHA256	`e2572336175fe7501406e4c229aff3a2145f59c526b7e3f8abeab91d645ef549`
MD5	`a574d2e8571aca0ff2196e72da6cfc3e`
BLAKE2b-256	`c76491318007163f4880c31b97f455fe6183a74556b34f6fabf2b65c7453f60c`

哈希值用于 opustrainer-0.2-py3-none-any.whl

opustrainer-0.2-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`c4b50d2e1e088302bb3092b51640debcc7d67fe4da92a991885a6d8d8df61f09`
MD5	`b0753a5320e7a7f798cd6295dc6ee5f2`
BLAKE2b-256	`edfabe39b48f3bec21805df19501ab5638bdce2e00df87efd2c219df1c6bc7b3`

opustrainer 0.2

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

OpusTrainer

安装

用法

配置文件

扩展阶段配置

修饰符

UpperCase

TitleCase

Typos

Tags

前缀

Tags

在训练前生成词汇和标签

未来工作

致谢

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源分布

构建分布

opustrainer 0.2

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

OpusTrainer

安装

用法

配置文件

扩展阶段配置

修饰符

UpperCase

TitleCase

Typos

Tags

前缀

Tags

在训练前生成词汇和标签

未来工作

致谢

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分布

构建分布

发布历史发布通知 | RSS源