信息检索的机器学习库
项目描述
ml4ir Python 快速入门
有关更详细的用法文档,请查看 ml4ir.readthedocs.io
内容
安装
将 ml4ir 作为库使用
要求
- python3.{6,7} (tf2.0.3 不适用于 python3.8)
- pip3
可以使用以下命令将 ml4ir 安装为 pip 包
pip3 install ml4ir
这将从 PyPI 安装 ml4ir-0.1.3(当前版本)。
要安装可选依赖项如 pygraphviz,请使用以下命令
pip3 install ml4ir[visualization]
要使用 ml4ir 随附的预构建管道,请确保按照以下方式安装(这将安装 pyspark 和 pygraphviz)
pip install ml4ir[all]
将 ml4ir 作为工具包使用或为 ml4ir 贡献
首先,克隆 ml4ir
git clone https://github.com/salesforce/ml4ir
您可以使用 docker 或 virtualenv 使用并开发 ml4ir
Docker(推荐)
要求
- docker(已测试 18.09+)
- docker-compose
我们已经设置了一个 docker-compose.yml
文件来构建和使用用于训练模型的 docker 容器。
将工作目录更改为 python 包
cd path/to/ml4ir/python/
要构建 docker 镜像并运行单元测试
docker-compose up --build
仅构建 ml4ir docker 镜像而不运行测试
docker-compose build
虚拟环境
要求
- python3.{6,7} (tf2.0.3 不适用于 python3.8)
- pip3
将工作目录更改为 python 包
cd path/to/ml4ir/python/
安装 virtualenv
pip3 install virtualenv
在您的 git 仓库内部创建新的 python3 虚拟环境(它被 .gitignore 忽略,请放心)
python3 -m venv env/.ml4ir_venv3
激活虚拟环境
source env/.ml4ir_venv3/bin/activate
安装所有依赖项
pip3 install --upgrade setuptools
pip install --upgrade pip
pip3 install -r requirements.txt
设置 PYTHONPATH 环境变量以指向 python 包
export PYTHONPATH=$PYTHONPATH:`pwd`
为 ml4ir 贡献
- 从
requirements.txt
和dev-requirements.txt
安装 python 依赖项以设置预提交钩子所需的依赖项。 pre-commit-hooks
是必需的,并作为为 ml4ir 贡献的要求安装。如果发生错误,请执行pre-commit install
以在 .git/ 目录中安装 git 钩子。
使用
作为工具包的 ml4ir
进入 ml4ir 训练或评估功能入口点是 ml4ir/base/pipeline.py
,对于特定应用的覆盖,请查看 `ml4ir/applications/<eg: ranking>/pipeline.py`
当前支持的管道
-
ml4ir/applications/ranking/pipeline.py
-
ml4ir/applications/classification/pipeline.py
要运行 ml4ir 排名管道以进行训练、评估和/或测试,请使用
docker-compose run ml4ir \
python3 ml4ir/applications/ranking/pipeline.py \
<args>
一个排名训练预测和评估管道的示例
docker-compose run ml4ir \
python3 ml4ir/applications/ranking/pipeline.py \
--data_dir ml4ir/applications/ranking/tests/data/tfrecord \
--feature_config ml4ir/applications/ranking/tests/data/configs/feature_config.yaml \
--run_id test \
--data_format tfrecord \
--execution_mode train_inference_evaluate
有关使用示例的更多信息,请查看
作为库的 ml4ir
要使用 ml4ir 作为深度学习库来构建相关性模型,请查看 notebooks/
下的以下教程
-
学习排名:
PointwiseRankingDemo
笔记本从底层开始指导您构建、训练、保存RelevanceModel
的整个生命周期。您还可以在其中找到有关 ml4ir 架构的详细信息。 -
文本分类:
EntityPredictionDemo
笔记本指导您训练一个模型来预测给定用户上下文和查询的实体类型。 -
排名解释:
Ranking_Explanations
笔记本指导您进行训练的 ml4ir 模型的每个查询的解释
输入以下命令以在您的浏览器中启动 Jupyter notebook 以运行上述笔记本
cd path/to/ml4ir/python/
source env/.ml4ir_venv3/bin/activate
pip3 install notebook
jupyter-notebook
运行测试
要运行 ml4ir
下的所有基于 python 的测试
使用 docker
docker-compose up
使用 virtualenv
python3 -m pytest
要运行特定测试
python3 -m pytest /path/to/test/module
构建
我们正在使用CircleCi进行构建过程。对于Python的代码覆盖率,我们使用coverage
。每个PR的Python覆盖率得分由构建计算得出,并在build_test_coverage
作业的“工件”部分中提供。
项目详情
下载文件
下载适合您平台的文件。如果您不确定该选择哪个,请了解有关安装包的更多信息。
源分布
构建分布
ml4ir-0.1.16.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | bc73a045baa74be7fd7a8c2bb4a050e83403160496c1bc12ffd855802addea1b |
|
MD5 | 280392c0ac88740b384790c71bc7baf0 |
|
BLAKE2b-256 | 663c52a55f7dd871076c26560135a86f164868c1677fbcb3406ce15d7b67c0d9 |
ml4ir-0.1.16-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6f07ef846e3d1e23533e7023e35928a0b15612965d86d01c0a7e87388b429875 |
|
MD5 | 4a296054c70bcc1a0577b492f53fc091 |
|
BLAKE2b-256 | fcb7b3bee647b97668c2ffcc9112fbc7cf5d01e6f6372b5eac038b0822596f34 |