跳转到主要内容

信息检索的机器学习库

项目描述

ml4ir Python 快速入门

有关更详细的用法文档,请查看 ml4ir.readthedocs.io

内容

安装

将 ml4ir 作为库使用

要求
  • python3.{6,7} (tf2.0.3 不适用于 python3.8)
  • pip3

可以使用以下命令将 ml4ir 安装为 pip 包

pip3 install ml4ir

这将从 PyPI 安装 ml4ir-0.1.3(当前版本)。

要安装可选依赖项如 pygraphviz,请使用以下命令

pip3 install ml4ir[visualization]

要使用 ml4ir 随附的预构建管道,请确保按照以下方式安装(这将安装 pyspark 和 pygraphviz)

pip install ml4ir[all]

将 ml4ir 作为工具包使用或为 ml4ir 贡献

首先,克隆 ml4ir

git clone https://github.com/salesforce/ml4ir

您可以使用 docker 或 virtualenv 使用并开发 ml4ir

Docker(推荐)

要求

我们已经设置了一个 docker-compose.yml 文件来构建和使用用于训练模型的 docker 容器。

将工作目录更改为 python 包

cd path/to/ml4ir/python/

要构建 docker 镜像并运行单元测试

docker-compose up --build

仅构建 ml4ir docker 镜像而不运行测试

docker-compose build

虚拟环境

要求
  • python3.{6,7} (tf2.0.3 不适用于 python3.8)
  • pip3

将工作目录更改为 python 包

cd path/to/ml4ir/python/

安装 virtualenv

pip3 install virtualenv

在您的 git 仓库内部创建新的 python3 虚拟环境(它被 .gitignore 忽略,请放心)

python3 -m venv env/.ml4ir_venv3

激活虚拟环境

source env/.ml4ir_venv3/bin/activate

安装所有依赖项

pip3 install --upgrade setuptools
pip install --upgrade pip
pip3 install -r requirements.txt

设置 PYTHONPATH 环境变量以指向 python 包

export PYTHONPATH=$PYTHONPATH:`pwd`

为 ml4ir 贡献

  • requirements.txtdev-requirements.txt 安装 python 依赖项以设置预提交钩子所需的依赖项。
  • pre-commit-hooks 是必需的,并作为为 ml4ir 贡献的要求安装。如果发生错误,请执行 pre-commit install 以在 .git/ 目录中安装 git 钩子。

使用

作为工具包的 ml4ir

进入 ml4ir 训练或评估功能入口点是 ml4ir/base/pipeline.py,对于特定应用的覆盖,请查看 `ml4ir/applications/<eg: ranking>/pipeline.py`

当前支持的管道

  • ml4ir/applications/ranking/pipeline.py

  • ml4ir/applications/classification/pipeline.py

要运行 ml4ir 排名管道以进行训练、评估和/或测试,请使用

docker-compose run ml4ir \
    python3 ml4ir/applications/ranking/pipeline.py \
    <args>

一个排名训练预测和评估管道的示例

docker-compose run ml4ir \
	python3 ml4ir/applications/ranking/pipeline.py \
	--data_dir ml4ir/applications/ranking/tests/data/tfrecord \
	--feature_config ml4ir/applications/ranking/tests/data/configs/feature_config.yaml \
	--run_id test \
	--data_format tfrecord \
	--execution_mode train_inference_evaluate

有关使用示例的更多信息,请查看

作为库的 ml4ir

要使用 ml4ir 作为深度学习库来构建相关性模型,请查看 notebooks/ 下的以下教程

  • 学习排名PointwiseRankingDemo 笔记本从底层开始指导您构建、训练、保存 RelevanceModel 的整个生命周期。您还可以在其中找到有关 ml4ir 架构的详细信息。

  • 文本分类EntityPredictionDemo 笔记本指导您训练一个模型来预测给定用户上下文和查询的实体类型。

  • 排名解释Ranking_Explanations 笔记本指导您进行训练的 ml4ir 模型的每个查询的解释

输入以下命令以在您的浏览器中启动 Jupyter notebook 以运行上述笔记本

cd path/to/ml4ir/python/
source env/.ml4ir_venv3/bin/activate
pip3 install notebook
jupyter-notebook

运行测试

要运行 ml4ir 下的所有基于 python 的测试

使用 docker

docker-compose up

使用 virtualenv

python3 -m pytest

要运行特定测试

python3 -m pytest /path/to/test/module

构建

我们正在使用CircleCi进行构建过程。对于Python的代码覆盖率,我们使用coverage。每个PR的Python覆盖率得分由构建计算得出,并在build_test_coverage作业的“工件”部分中提供。

项目详情


下载文件

下载适合您平台的文件。如果您不确定该选择哪个,请了解有关安装包的更多信息。

源分布

ml4ir-0.1.16.tar.gz (4.8 MB 查看哈希值)

上传时间

构建分布

ml4ir-0.1.16-py3-none-any.whl (4.9 MB 查看哈希值)

上传时间 Python 3

由以下机构支持