翻译器 Benchmarks Runner
项目描述
翻译器 Benchmarks Runner
此存储库提供了一套基准测试以及发送查询和评估基准测试返回结果的代码。
benchmarks-runner
包含查询目标和评估结果的代码。
benchmarks-runner.config
包含运行基准测试所需的数据集、查询模板、目标和基准定义。有关目标和基准的详细信息,请参阅 config/README.md
。
使用方法
运行基准测试是一个两步过程
- 执行基准测试的查询并将得分结果存储。
- 将得分结果与一组真实相关结果进行比较。
安装 benchmarks-runner 包提供运行基准测试所需的功能和命令行界面。
CLI
命令行界面是运行基准测试最简单的方法。
-
benchmarks_fetch
- 根据基准测试名称(在
config/benchmarks.json
中指定)、目标(在config/targets.json
中指定)和存储结果的目录获取(未)得分结果。 - 默认情况下,
benchmarks_fetch
使用5个并发请求获取得分结果。运行benchmarks_fetch --help
获取更多详细信息。
- 根据基准测试名称(在
-
benchmarks_score
- 根据基准测试名称(在
config/benchmarks.json
中指定)、目标(在config/targets.json
中指定)、包含未得分结果的目录以及存储得分结果的目录对结果进行评分。 - 默认情况下,
benchmarks_score
使用5个并发请求。运行benchmarks_score --help
获取更多详细信息。
- 根据基准测试名称(在
-
benchmarks_eval
- 根据基准测试名称(在
config/benchmarks.json
中指定)和包含得分结果的目录评估一组得分结果。 - 默认情况下,评估考虑每个查询的前20个结果,并且不会生成图表。运行
benchmarks_eval --help
获取更多详细信息。
- 根据基准测试名称(在
函数
CLI 功能也通过从 benchmarks
包导入函数来实现。
from benchmarks.request import fetch_results, score_results
from benchmarks.eval import evaluate_results
# Fetch unscored results
fetch_results('benchmark_name', 'target_name', 'unscored_results_dir', scored=False)
# Score unscored results
score_results('unscored_results_dir', 'target_name', 'results_dir')
# Evaluate scored results
evaluate_results('benchmark_name', 'results_dir OR results_dict')
查看每个函数的文档以获取更多信息。
安装
使用 pip
将存储库安装为可编辑包。
pip install -e .
用户界面
这些基准测试附带了一个用于查看得分的用户界面。
安装
需要 Python 3.9。
- 创建 Python 虚拟环境:
python3.9 -m venv benchmark_venv
- 激活您的环境:
./benchmark_venv/bin/activate
- 安装依赖项:
pip install -r requirements.txt
- 启动前端服务器:
python server.py
- 在浏览器中打开
基准测试运行器
可以从 PyPI 安装基准测试,并将其用作翻译器范围内自动化测试的一部分。
- 安装基准测试运行器:
pip install benchmarks-runner
import asyncio
from benchmarks_runner import run_benchmarks
output = asyncio.run(run_benchmarks(<benchmark>, <target>))
其中基准测试的名称在 config/benchmarks.json 中指定,目标在 config/targets.json 中指定
示例输出
Benchmark: GTRx
Results Directory: /tmp/tmpaf10m9_q/GTRx/bte/2023-11-10_13-03-11
k=1 k=5 k=10 k=20
Precision @ k 0.0000 0.0500 0.0250 0.0125
Recall @ k 0.0000 0.2500 0.2500 0.2500
mAP @ k 0.0000 0.0833 0.0833 0.0833
Top-k Accuracy 0.0000 0.2500 0.2500 0.2500
Mean Reciprocal Rank 0.08333333333333333
项目详情
下载文件
下载适合您平台的文件。如果您不确定要选择哪个,请了解有关 安装包 的更多信息。
源代码分发
benchmarks-runner-0.1.3.tar.gz (488.2 kB 查看哈希值)
构建分发
benchmarks_runner-0.1.3-py3-none-any.whl (519.2 kB 查看哈希值)