跳转到主要内容

未提供项目描述

项目描述

OpusCleaner

OpusCleaner是一个机器翻译/语言模型数据清理器和训练调度器。训练调度器已移至 OpusTrainer

清理器

清理器负责下载和清理多个不同的数据集,并准备好进行翻译。

opuscleaner-clean --parallel 4 data/train-parts/dataset.filter.json | gzip -c > clean.gz

清理安装

如果您只想使用OpusCleaner进行清理,您可以从PyPI安装它,然后运行它

pip3 install opuscleaner
opuscleaner-server serve

然后您可以通过访问 http://127.0.0.1:8000/ 来显示界面。

您也可以在远程机器上安装和运行OpusCleaner,并使用 SSH本地转发(例如,ssh -L 8000:localhost:8000 you@remote.machine)来访问本地机器上的界面。

依赖关系

(主要列出为文档快捷方式)

  • FastAPI 作为后端部分的基座。
  • Pydantic 用于将无类型的JSON转换为类型化对象。因为FastAPI自动支持它,并且如果您搞错了,会提供有用的错误信息。
  • Vue 用于前端

屏幕截图

列出和分类您将要用于训练的数据集。

直接从界面下载更多数据集。

筛选每个独立的数据集,立即显示结果。

比较不同过滤阶段的数据集,以查看每个过滤器的具体影响。

使用您自己的数据

OpusCleaner会自动扫描数据集,如果数据集格式正确,则会自动找到它们。当您下载OPUS数据时,它将转换为该格式,并且没有阻止您添加相同格式的数据。

默认情况下,它将扫描匹配data/train-parts/*.*.gz的文件,并从文件名中推导出构成数据集的文件:name.en.gzname.de.gz将是一个名为name的数据集。文件是您的标准moses格式:每行一个句子,第一个文件中的每N行将与第二个文件中的第N行匹配。

如有疑问,只需通过OpusCleaner下载一个OPUS数据集,然后为您的数据集复制该格式。

如果您想使用另一个路径,可以使用DATA_PATH环境变量来更改它,例如运行DATA_PATH="./my-datasets/*.*.gz" opuscleaner-server

路径

  • data/train-parts会扫描数据集。您可以通过设置DATA_PATH环境变量来更改此设置,默认为data/train-parts/*.*.gz
  • filters应包含过滤器json文件。您可以通过更改FILTER_PATH环境变量来更改它,默认为<PYTHON_PACKAGE>/filters/*.json

开发时的安装

cd frontend
npm clean-install
npm run build
cd ..

python3 -m venv .env
bash --init-file .env/bin/activate
pip install -e .

最后,您可以像平常一样运行opuscleaner-server。使用--reload选项将在任何Python文件更改时重启它。

opuscleaner-server serve --reload

然后访问http://127.0.0.1:8000/以获取“界面”或http://127.0.0.1:8000/docs以获取API。

前端开发

如果您正在进行前端开发,也可以尝试运行

cd frontend
npm run dev

然后访问http://127.0.0.1:5173/以获取“界面”。

这将使vite处于热重载模式,以便更容易进行JavaScript开发。所有API请求都将代理到运行在8000的Python服务器,这就是为什么需要同时运行它们的原因。

过滤器

如果您想使用LASER,您还需要下载其资产

python -m laserembeddings download-models

打包

首先在frontend/目录中运行npm build,然后在项目目录中运行hatch build .以构建wheel和源分布。

要从Github将新版本推送到Pypi,请使用带有vX.Y.Z版本号(包括前缀v)的提交标记。然后在Github上发布版本。这应会触发一个工作流程,将sdist + wheel推送到pypi。

致谢

该项目已获得欧盟“地平线欧洲”研究和创新计划的支持,项目协议号101070350,以及英国研究与创新(UKRI)根据英国政府“地平线欧洲”资金担保[项目编号10052546]的支持。

项目详情


下载文件

下载您平台对应的文件。如果您不确定该选择哪个,请了解更多关于 安装包的说明

源代码分发

opuscleaner-0.4.2.tar.gz (307.5 kB 查看哈希值)

上传时间 源代码

构建分发

opuscleaner-0.4.2-py3-none-any.whl (341.3 kB 查看哈希值)

上传时间 Python 3

支持者