未提供项目描述
项目描述
OpusCleaner
OpusCleaner是一个机器翻译/语言模型数据清理器和训练调度器。训练调度器已移至 OpusTrainer。
清理器
清理器负责下载和清理多个不同的数据集,并准备好进行翻译。
opuscleaner-clean --parallel 4 data/train-parts/dataset.filter.json | gzip -c > clean.gz
清理安装
如果您只想使用OpusCleaner进行清理,您可以从PyPI安装它,然后运行它
pip3 install opuscleaner
opuscleaner-server serve
然后您可以通过访问 http://127.0.0.1:8000/ 来显示界面。
您也可以在远程机器上安装和运行OpusCleaner,并使用 SSH本地转发(例如,ssh -L 8000:localhost:8000 you@remote.machine
)来访问本地机器上的界面。
依赖关系
(主要列出为文档快捷方式)
屏幕截图
使用您自己的数据
OpusCleaner会自动扫描数据集,如果数据集格式正确,则会自动找到它们。当您下载OPUS数据时,它将转换为该格式,并且没有阻止您添加相同格式的数据。
默认情况下,它将扫描匹配data/train-parts/*.*.gz
的文件,并从文件名中推导出构成数据集的文件:name.en.gz
和name.de.gz
将是一个名为name的数据集。文件是您的标准moses格式:每行一个句子,第一个文件中的每N行将与第二个文件中的第N行匹配。
如有疑问,只需通过OpusCleaner下载一个OPUS数据集,然后为您的数据集复制该格式。
如果您想使用另一个路径,可以使用DATA_PATH
环境变量来更改它,例如运行DATA_PATH="./my-datasets/*.*.gz" opuscleaner-server
。
路径
data/train-parts
会扫描数据集。您可以通过设置DATA_PATH
环境变量来更改此设置,默认为data/train-parts/*.*.gz
。filters
应包含过滤器json文件。您可以通过更改FILTER_PATH
环境变量来更改它,默认为<PYTHON_PACKAGE>/filters/*.json
。
开发时的安装
cd frontend
npm clean-install
npm run build
cd ..
python3 -m venv .env
bash --init-file .env/bin/activate
pip install -e .
最后,您可以像平常一样运行opuscleaner-server
。使用--reload
选项将在任何Python文件更改时重启它。
opuscleaner-server serve --reload
然后访问http://127.0.0.1:8000/以获取“界面”或http://127.0.0.1:8000/docs以获取API。
前端开发
如果您正在进行前端开发,也可以尝试运行
cd frontend
npm run dev
然后访问http://127.0.0.1:5173/以获取“界面”。
这将使vite处于热重载模式,以便更容易进行JavaScript开发。所有API请求都将代理到运行在8000的Python服务器,这就是为什么需要同时运行它们的原因。
过滤器
如果您想使用LASER,您还需要下载其资产
python -m laserembeddings download-models
打包
首先在frontend/
目录中运行npm build
,然后在项目目录中运行hatch build .
以构建wheel和源分布。
要从Github将新版本推送到Pypi,请使用带有vX.Y.Z
版本号(包括前缀v
)的提交标记。然后在Github上发布版本。这应会触发一个工作流程,将sdist + wheel推送到pypi。
致谢
该项目已获得欧盟“地平线欧洲”研究和创新计划的支持,项目协议号101070350,以及英国研究与创新(UKRI)根据英国政府“地平线欧洲”资金担保[项目编号10052546]的支持。
项目详情
下载文件
下载您平台对应的文件。如果您不确定该选择哪个,请了解更多关于 安装包的说明。
源代码分发
构建分发
opuscleaner-0.4.2.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 305130cb6faa9aa5a033fb53b9a6db8697f3772ac19df93e153348566067712b |
|
MD5 | eb76731f2c7371ecb38bd71cb2a76c40 |
|
BLAKE2b-256 | 1496482b9cd2844dcecf2ce82cd469d7d9deb2b03608c3c4378331fabe97fb0b |
opuscleaner-0.4.2-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1365b86d8c336f7505cb9f4d6864f71fddde46449f1bce17a577a9333a0d7324 |
|
MD5 | 83b61cf3c95044f7590ad165aec51b1f |
|
BLAKE2b-256 | 8f41b920a12aab9dc3359471f05991bcf38280fd33ee8987c1dfb3d4872ccb19 |