大规模文本嵌入基准

这些详情尚未被PyPI验证

项目链接

Huggingface组织

开发状态
- 5 - 生产/稳定
环境
- 控制台
目标受众
- 开发者
- 信息技术
许可证
- OSI批准 :: Apache软件许可证
操作系统
- 与操作系统无关
编程语言
- Python

项目描述

大规模文本嵌入基准

安装 | 使用 | 排行榜 | 文档 | 引用

安装

pip install mteb

示例用法

使用Python脚本

import mteb
from sentence_transformers import SentenceTransformer

# Define the sentence-transformers model name
model_name = "average_word_embeddings_komninos"
# or directly from huggingface:
# model_name = "sentence-transformers/all-MiniLM-L6-v2"

model = SentenceTransformer(model_name)
tasks = mteb.get_tasks(tasks=["Banking77Classification"])
evaluation = mteb.MTEB(tasks=tasks)
results = evaluation.run(model, output_folder=f"results/{model_name}")

使用命令行界面

mteb available_tasks

mteb run -m sentence-transformers/all-MiniLM-L6-v2 \
    -t Banking77Classification  \
    --verbosity 3

# if nothing is specified default to saving the results in the results/{model_name} folder

可以通过仅使用自定义编码函数来并行使用多个GPU，该函数将输入分配给多个GPU，例如这里或这里。

使用文档

点击下面的每个部分以查看详细信息。

任务选择

可以通过提供数据集列表来选择任务，也可以

根据其任务（例如，“聚类”或“分类”）

tasks = mteb.get_tasks(task_types=["Clustering", "Retrieval"]) # Only select clustering and retrieval tasks

根据其类别，例如“s2s”（句子到句子）或“p2p”（段落到段落）

tasks = mteb.get_tasks(categories=["s2s", "p2p"]) # Only select sentence2sentence and paragraph2paragraph datasets

根据其语言

tasks = mteb.get_tasks(languages=["eng", "deu"]) # Only select datasets which contain "eng" or "deu" (iso 639-3 codes)

您还可以指定要加载的多语言/跨语言任务的特定语言，如下所示

import mteb

tasks = [
    mteb.get_task("AmazonReviewsClassification", languages = ["eng", "fra"]),
    mteb.get_task("BUCCBitextMining", languages = ["deu"]), # all subsets containing "deu"
]

# or you can select specific huggingface subsets like this:
from mteb.tasks import AmazonReviewsClassification, BUCCBitextMining

evaluation = mteb.MTEB(tasks=[
        AmazonReviewsClassification(hf_subsets=["en", "fr"]) # Only load "en" and "fr" subsets of Amazon Reviews
        BUCCBitextMining(hf_subsets=["de-en"]), # Only load "de-en" subset of BUCC
])
# for an example of a HF subset see "Subset" in the dataset viewer at: https://hugging-face.cn/datasets/mteb/bucc-bitext-mining

运行基准测试

mteb附带一组预定义的基准测试。这些可以通过get_benchmark获取并按照类似其他任务集的方式运行。例如，要选择构成“总体MTEB英语排行榜”的56个英语数据集

import mteb
benchmark = mteb.get_benchmark("MTEB(eng)")
evaluation = mteb.MTEB(tasks=benchmark)

指定的基准不仅包含任务列表，还包含要运行的分割和语言。要获取所有可用基准的概述，请运行

import mteb
benchmarks = mteb.get_benchmarks()

通常我们使用基准的命名方案为MTEB(*)，其中“*”表示基准的目标。在语言的情况下，我们使用三位语言代码。对于大型语言组，我们使用组表示法，例如，MTEB(Scandinavian)表示斯堪的纳维亚语。在MTEB中实现的如CoIR之类的外部基准使用其原始名称。当使用MTEB中的基准时，请引用mteb以及您可以通过以下方式访问的基准的引用

benchmark.citation

传递encode参数

传递`encode`参数

要传递参数给模型的encode函数，您可以使用编码关键字参数（encode_kwargs）

evaluation.run(model, encode_kwargs={"batch_size": 32}

选择评估分割

您可以通过以下方式仅对所有任务的test分割进行评估

evaluation.run(model, eval_splits=["test"])

请注意，公共排行榜使用除MSMARCO外的所有数据集的测试分割，“dev”分割用于MSMARCO。

使用自定义模型

模型应实现以下接口，实现一个encode函数，该函数接收句子列表作为输入，并返回嵌入列表（嵌入可以是np.array、torch.tensor等）。作为灵感，您可以查看用于通过SLURM脚本来运行各种模型的mteb/mtebscripts存储库。

class MyModel():
    def encode(
        self, sentences: list[str], **kwargs: Any
    ) -> torch.Tensor | np.ndarray:
        """Encodes the given sentences using the encoder.

        Args:
            sentences: The sentences to encode.
            **kwargs: Additional arguments to pass to the encoder.

        Returns:
            The encoded sentences.
        """
        pass

model = MyModel()
tasks = mteb.get_task("Banking77Classification")
evaluation = MTEB(tasks=tasks)
evaluation.run(model)

如果您在检索或重排序任务中希望使用不同的编码函数对查询和语料库进行评估，可以为encode_queries和encode_corpus添加单独的方法。如果存在这些方法，它们将自动用于这些任务。您可以通过查看mteb/evaluation/evaluators/RetrievalEvaluator.py中的DRESModel来获取这些函数的示例。

class MyModel():
    def encode_queries(self, queries: list[str], **kwargs) -> list[np.ndarray] | list[torch.Tensor]:
        """
        Returns a list of embeddings for the given sentences.
        Args:
            queries: List of sentences to encode

        Returns:
            List of embeddings for the given sentences
        """
        pass

    def encode_corpus(self, corpus: list[str] | list[dict[str, str]], **kwargs) -> list[np.ndarray] | list[torch.Tensor]:
        """
        Returns a list of embeddings for the given sentences.
        Args:
            corpus: List of sentences to encode
                or list of dictionaries with keys "title" and "text"

        Returns:
            List of embeddings for the given sentences
        """
        pass

在自定义数据集上评估

要在自定义任务上评估，您可以在您的自定义任务上运行以下代码。有关如何在MTEB中创建新任务，请参阅如何添加新任务。

from mteb import MTEB
from mteb.abstasks.AbsTaskReranking import AbsTaskReranking
from sentence_transformers import SentenceTransformer


class MyCustomTask(AbsTaskReranking):
    ...

model = SentenceTransformer("average_word_embeddings_komninos")
evaluation = MTEB(tasks=[MyCustomTask()])
evaluation.run(model)

使用交叉编码器进行重排序

要使用交叉编码器进行重排序，您可以直接使用SentenceTransformers中的CrossEncoder。以下代码展示了具有两个阶段运行的示例，第二阶段读取第一阶段保存的结果。

from mteb import MTEB
import mteb
from sentence_transformers import CrossEncoder, SentenceTransformer

cross_encoder = CrossEncoder("cross-encoder/ms-marco-TinyBERT-L-2-v2")
dual_encoder = SentenceTransformer("all-MiniLM-L6-v2")

tasks = mteb.get_tasks(tasks=["NFCorpus"], languages=["eng"])

subset = "default" # subset name used in the NFCorpus dataset
eval_splits = ["test"]

evaluation = MTEB(tasks=tasks)
evaluation.run(
    dual_encoder,
    eval_splits=eval_splits,
    save_predictions=True,
    output_folder="results/stage1",
)
evaluation.run(
    cross_encoder,
    eval_splits=eval_splits,
    top_k=5,
    save_predictions=True,
    output_folder="results/stage2",
    previous_results=f"results/stage1/NFCorpus_{subset}_predictions.json",
)

保存检索任务的预测结果

要保存检索任务的预测结果，请在CLI中添加--save_predictions标志或在运行方法中将save_predictions=True设置为真。文件名将为"{task_name}_{subset}_predictions.json"格式。

Python

from mteb import MTEB
import mteb
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("all-MiniLM-L6-v2")

tasks = mteb.get_tasks( tasks=["NFCorpus"], languages=["eng"])

evaluation = MTEB(tasks=tasks)
evaluation.run(
    model,
    eval_splits=["test"],
    save_predictions=True,
    output_folder="results",
)

命令行界面

mteb run -t NFCorpus -m all-MiniLM-L6-v2 --output_folder results --save_predictions

从结果存储库获取结果

已经对MTEB内可用的任务运行了多个模型。这些结果可在结果存储库中找到。

为了使结果更容易访问，我们为从存储库中检索而设计了自定义功能。例如，如果您正在选择用于法律文件的法语和英语检索任务的最佳模型，可以使用以下代码检索相关任务并使用以下代码创建结果数据框

import mteb
from mteb.task_selection import results_to_dataframe

tasks = mteb.get_tasks(
    task_types=["Retrieval"], languages=["eng", "fra"], domains=["Legal"]
)

model_names = [
    "GritLM/GritLM-7B",
    "intfloat/multilingual-e5-small",
    "intfloat/multilingual-e5-base",
    "intfloat/multilingual-e5-large",
]
models = [mteb.get_model_meta(name) for name in model_names]

results = mteb.load_results(models=models, tasks=tasks)

df = results_to_dataframe(results)

文档

文档
📋 任务	可用的任务概述
📐 基准	可用的基准概述
📈 排行榜	基准的交互式排行榜
🤖 添加模型	有关如何将模型提交到排行榜的相关信息
👩‍🔬 可重复工作流程	有关如何使用MTEB重现和创建可重复工作流程的信息
👩‍💻 添加数据集	如何将新任务/数据集添加到MTEB
👩‍💻 添加排行榜标签	如何将新的排行榜标签添加到MTEB
🤝 贡献	如何为MTEB做出贡献并设置开发环境
🌐 MMTEB	一个开源项目，旨在扩展MTEB以覆盖广泛的语言集

引用

MTEB在"MTEB: Massive Text Embedding Benchmark"中介绍，请随时引用。

@article{muennighoff2022mteb,
  doi = {10.48550/ARXIV.2210.07316},
  url = {https://arxiv.org/abs/2210.07316},
  author = {Muennighoff, Niklas and Tazi, Nouamane and Magne, Lo{\"\i}c and Reimers, Nils},
  title = {MTEB: Massive Text Embedding Benchmark},
  publisher = {arXiv},
  journal={arXiv preprint arXiv:2210.07316},  
  year = {2022}
}

您还可以阅读并引用扩展MTEB并集成新数据集的出色工作

Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff. "C-Pack: Packaged Resources To Advance General Chinese Embedding" arXiv 2023
Michael Günther, Jackmin Ong, Isabelle Mohr, Alaeddine Abdessalem, Tanguy Abel, Mohammad Kalim Akram, Susana Guzman, Georgios Mastrapas, Saba Sturua, Bo Wang, Maximilian Werk, Nan Wang, Han Xiao. "Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents" arXiv 2023
Silvan Wehrli, Bert Arnrich, Christopher Irrgang. "German Text Embedding Clustering Benchmark" arXiv 2024
Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini. "FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions" arXiv 2024
Dawei Zhu, Liang Wang, Nan Yang, Yifan Song, Wenhao Wu, Furu Wei, Sujian Li. "LongEmbed: Extending Embedding Models for Long Context Retrieval" arXiv 2024
肯尼斯·恩沃尔登（Kenneth Enevoldsen）、马顿·卡多斯（Márton Kardos）、尼克拉斯·穆尼霍夫（Niklas Muennighoff）、克里斯托弗·拉加德·尼尔博（Kristoffer Laigaard Nielbo）。《斯堪的纳维亚嵌入基准：多语言和单语言文本嵌入的全面评估》arXiv 2024

对于使用MTEB进行基准测试的作品，您可以在排行榜上找到它们。

项目详情

这些详情尚未被PyPI验证

项目链接

Huggingface组织

开发状态
- 5 - 生产/稳定
环境
- 控制台
目标受众
- 开发者
- 信息技术
许可证
- OSI批准 :: Apache软件许可证
操作系统
- 与操作系统无关
编程语言
- Python

发布历史发布通知 | RSS源

本版本

1.15.2

2024年10月3日

1.15.1

2024年10月3日

1.15.0

2024年10月3日

1.14.26

2024年9月29日

1.14.25

2024年9月29日

1.14.24

2024年9月28日

1.14.23

2024年9月28日

1.14.22

2024年9月27日

1.14.21

2024年9月20日

1.14.20

2024年9月17日

1.14.19

2024年9月14日

1.14.18

2024年9月10日

1.14.17

2024年9月9日

1.14.16

2024年9月9日

1.14.15

2024年9月1日

1.14.14

2024年9月1日

1.14.13

2024年9月1日

1.14.12

2024年8月25日

1.14.11

2024年8月25日

1.14.10

2024年8月22日

1.14.9

2024年8月21日

1.14.8

2024年8月21日

1.14.7

2024年8月21日

1.14.6

2024年8月21日

1.14.5

2024年8月19日

1.14.4

2024年8月19日

1.14.3

2024年8月19日

1.14.2

2024年8月15日

1.14.1

2024年8月13日

1.14.0

2024年8月12日

1.13.2

2024年8月11日

1.13.1

2024年8月10日

1.13.0

2024年8月9日

1.12.94

2024年8月8日

1.12.93

2024年8月4日

1.12.92

2024年8月2日

1.12.91

2024年8月1日

1.12.90

2024年7月30日

1.12.89

2024年7月25日

1.12.88

2024年7月25日

1.12.87

2024年7月25日

1.12.86

2024年7月25日

1.12.85

2024年7月22日

1.12.84

2024年7月18日

1.12.83

2024年7月18日

1.12.82

2024年7月18日

1.12.81

2024年7月16日

1.12.80

2024年7月15日

1.12.79

2024年7月12日

1.12.78

2024年7月12日

1.12.77

2024年7月12日

1.12.76

2024年7月12日

1.12.75

2024年7月9日

1.12.74

2024年7月9日

1.12.73

2024年7月9日

1.12.72

2024年7月9日

1.12.71

2024年7月8日

1.12.70

2024年7月8日

1.12.69

2024年7月8日

1.12.68

2024年7月5日

1.12.67

2024年7月4日

1.12.66

2024年7月3日

1.12.65

2024年7月3日

1.12.64

2024年7月3日

1.12.63

2024年7月2日

1.12.62

2024年7月2日

1.12.61

2024年7月2日

1.12.60

2024年7月2日

1.12.59

2024年6月30日

1.12.58

2024年6月28日

1.12.57

2024年6月27日

1.12.56

2024年6月27日

1.12.55

2024年6月26日

1.12.54

2024年6月25日

1.12.53

2024年6月25日

1.12.52

2024年6月25日

1.12.51

2024年6月25日

1.12.50

2024年6月25日

1.12.49

2024年6月24日

1.12.48

2024年6月21日

1.12.47

2024年6月20日

1.12.46

2024年6月20日

1.12.45

2024年6月20日

1.12.44

2024年6月19日

1.12.43

2024年6月18日

1.12.42

2024年6月18日

1.12.41

2024年6月18日

1.12.40

2024年6月18日

1.12.39

2024年6月18日

1.12.38

2024年6月17日

1.12.37

2024年6月17日

1.12.36

2024年6月17日

1.12.35

2024年6月17日

1.12.34

2024年6月16日

1.12.33

2024年6月15日

1.12.32

2024年6月15日

1.12.31

2024年6月15日

1.12.30

2024年6月15日

1.12.29

2024年6月15日

1.12.28

2024年6月15日

1.12.27

2024年6月13日

1.12.26

2024年6月13日

1.12.25

2024年6月11日

1.12.24

2024年6月9日

1.12.23

2024年6月8日

1.12.22

2024年6月6日

1.12.21

2024年6月5日

1.12.20

2024年6月5日

1.12.19

2024年6月5日

1.12.18

2024年6月5日

1.12.17

2024年6月4日

1.12.16

2024年6月4日

1.12.15

2024年6月4日

1.12.14

2024年6月3日

1.12.13

2024年6月3日

1.12.12

2024年6月3日

1.12.11

2024年6月2日

1.12.10

2024年6月2日

1.12.9

2024年6月2日

1.12.8

2024年6月2日

1.12.7

2024年6月2日

1.12.6

2024年6月1日

1.12.5

2024年5月29日

1.12.4

2024年5月28日

1.12.3

2024年5月27日

1.12.2

2024年5月27日

1.12.1

2024年5月27日

1.12.0

2024年5月27日

1.11.19

2024年5月25日

1.11.18

2024年5月25日

1.11.17

2024年5月24日

1.11.16

2024年5月24日

1.11.15

2024年5月24日

1.11.14

2024年5月24日

1.11.13

2024年5月23日

1.11.12

2024年5月22日

1.11.11

2024年5月22日

1.11.10

2024年5月22日

1.11.9

2024年5月22日

1.11.8

2024年5月22日

1.11.7

2024年5月22日

1.11.6

2024年5月21日

1.11.5

2024年5月21日

1.11.4

2024年5月21日

1.11.3

2024年5月21日

1.11.2

2024年5月21日

1.11.1

2024年5月21日

1.11.0

2024年5月20日

1.10.18

2024年5月20日

1.10.17

2024年5月20日

1.10.16

2024年5月20日

1.10.15

2024年5月19日

1.10.14

2024年5月19日

1.10.13

2024年5月18日

1.10.12

2024年5月18日

1.10.11

2024年5月18日

1.10.10

2024年5月17日

1.10.9

2024年5月17日

1.10.8

2024年5月17日

1.10.7

2024年5月17日

1.10.6

2024年5月17日

1.10.5

2024年5月16日

1.10.4

2024年5月16日

1.10.3

2024年5月16日

1.10.2

2024年5月16日

1.10.1

2024年5月15日

1.10.0

2024年5月14日

1.9.3

2024年5月14日

1.9.2

2024年5月14日

1.9.1

2024年5月14日

1.9.0

2024年5月13日

1.8.11

2024年5月12日

1.8.10

2024年5月12日

1.8.9

2024年5月11日

1.8.8

2024年5月11日

1.8.7

2024年5月9日

1.8.6

2024年5月8日

1.8.5

2024年5月8日

1.8.4

2024年5月8日

1.8.3

2024年5月7日

1.8.2

2024年5月6日

1.8.1

2024年5月6日

1.8.0

2024年5月5日

1.7.64

2024年5月5日

1.7.63

2024年5月5日

1.7.62

2024年5月5日

1.7.61

2024年5月5日

1.7.60

2024年5月4日

1.7.59

2024年5月4日

1.7.58

2024年5月2日

1.7.57

2024年5月2日

1.7.56

2024年5月2日

1.7.55

2024年5月2日

1.7.54

2024年5月2日

1.7.53

2024年5月2日

1.7.52

2024年5月1日

1.7.51

2024年5月1日

1.7.50

2024年4月30日

1.7.49

2024年4月30日

1.7.48

2024年4月30日

1.7.47

2024年4月30日

1.7.46

2024年4月29日

1.7.45

2024年4月29日

1.7.44

2024年4月29日

1.7.43

2024年4月29日

1.7.42

2024年4月29日

1.7.41

2024年4月28日

1.7.40

2024年4月28日

1.7.39

2024年4月28日

1.7.38

2024年4月27日

1.7.37

2024年4月27日

1.7.36

2024年4月26日

1.7.35

2024年4月26日

1.7.34

2024年4月26日

1.7.33

2024年4月26日

1.7.32

2024年4月25日

1.7.31

2024年4月25日

1.7.30

2024年4月25日

1.7.29

2024年4月25日

1.7.28

2024年4月25日

1.7.27

2024年4月24日

1.7.26

2024年4月24日

1.7.25

2024年4月24日

1.7.24

2024年4月24日

1.7.23

2024年4月24日

1.7.22

2024年4月24日

1.7.21

2024年4月24日

1.7.20

2024年4月24日

1.7.19

2024年4月24日

1.7.18

2024年4月24日

1.7.17

2024年4月23日

1.7.16

2024年4月23日

1.7.15

2024年4月23日

1.7.14

2024年4月23日

1.7.13

2024年4月23日

1.7.12

2024年4月23日

1.7.11

2024年4月23日

1.7.10

2024年4月23日

1.7.9

2024年4月23日

1.7.8

2024年4月23日

1.7.7

2024年4月23日

1.7.6

2024年4月22日

1.7.5

2024年4月22日

1.7.4

2024年4月21日

1.7.3

2024年4月21日

1.7.2

2024年4月21日

1.7.1

2024年4月21日

1.7.0

2024年4月20日

1.6.38

2024年4月20日

1.6.37

2024年4月20日

1.6.36

2024年4月19日

1.6.35

2024年4月19日

1.6.34

2024年4月19日

1.6.33

2024年4月19日

1.6.32

2024年4月19日

1.6.31

2024年4月19日

1.6.30

2024年4月19日

1.6.29

2024年4月19日

1.6.28

2024年4月19日

1.6.27

2024年4月19日

1.6.26

2024年4月19日

1.6.25

2024年4月18日

1.6.24

2024年4月18日

1.6.23

2024年4月18日

1.6.22

2024年4月18日

1.6.21

2024年4月18日

1.6.20

2024年4月18日

1.6.19

2024年4月18日

1.6.18

2024年4月18日

1.6.17

2024年4月18日

1.6.16

2024年4月17日

1.6.15

2024年4月17日

1.6.14

2024年4月17日

1.6.13

2024年4月17日

1.6.12

2024年4月17日

1.6.11

2024年4月16日

1.6.10

2024年4月15日

1.6.9

2024年4月15日

1.6.8

2024年4月15日

1.6.7

2024年4月15日

1.6.6

2024年4月15日

1.6.5

2024年4月15日

1.6.4

2024年4月15日

1.6.3

2024年4月14日

1.6.2

2024年4月12日

1.6.1

2024年4月11日

1.6.0

2024年4月10日

1.5.6

2024年4月10日

1.5.5

2024年4月9日

1.5.4

2024年4月8日

1.5.3

2024年4月8日

1.5.2

2024年4月4日

1.5.1

2024年4月3日

1.5.0

2024年4月2日

1.4.1

2024年4月1日

1.4.0

2024年4月1日

1.3.4

2024年4月1日

1.3.3

2024年3月31日

1.3.2

2024年3月29日

1.3.1

2024年3月26日

1.2.0

2024年3月6日

1.1.2

2024年2月16日

1.1.1

2023年9月20日

1.1.0

2023年7月31日

1.0.2

2023年3月28日

1.0.1

2022年11月29日

1.0.0

2022年10月17日

0.9.1

2022年10月13日

0.0.1

2022年6月30日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解有关安装包的更多信息。

源分布

mteb-1.15.2.tar.gz (687.9 kB 查看散列值)

上传于 2024年10月3日 来源

构建分发

mteb-1.15.2-py3-none-any.whl (1.1 MB 查看哈希值)

上传于 2024年10月3日 Python 3

mteb-1.15.2.tar.gz的哈希值

mteb-1.15.2.tar.gz的哈希值
算法	哈希摘要
SHA256	`bc616af026275bad542c7063d2178b8f6135e96b97e73136c2cde29568df6683`
MD5	`00f6a5d19e8f222569534e2859c186b0`
BLAKE2b-256	`91426be4a3a3849e46e64df21e634b2431232fad383f5530eead150968b7ce45`

mteb-1.15.2-py3-none-any.whl的哈希值

mteb-1.15.2-py3-none-any.whl的哈希值
算法	哈希摘要
SHA256	`4ff06dc76aea7a46ff225db67802fbb64bac23a93de9e30fb3fb308701a0535e`
MD5	`b34698b67d90f6e3701821f6a060a12b`
BLAKE2b-256	`60abfb3fecdaaa6a093b005e6c7c8f95e091d83f558451216bd5bd789a1625a7`

mteb 1.15.2

导航

验证详情

项目链接

GitHub统计

维护者

未经验证详情

项目链接

元数据

分类器

项目描述

大规模文本嵌入基准

安装 | 使用 | 排行榜 | 文档 | 引用

安装

示例用法

使用文档

任务选择

运行基准测试

传递`encode`参数

选择评估分割

使用自定义模型

在自定义数据集上评估

使用交叉编码器进行重排序

保存检索任务的预测结果

从结果存储库获取结果

文档

引用

项目详情

验证详情

项目链接

GitHub统计

维护者

未经验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源分布

构建分发

mteb 1.15.2

导航

验证详情

项目链接

GitHub统计

维护者

未经验证详情

项目链接

元数据

分类器

项目描述

大规模文本嵌入基准

安装 | 使用 | 排行榜 | 文档 | 引用

安装

示例用法

使用文档

任务选择

运行基准测试

传递encode参数

选择评估分割

使用自定义模型

在自定义数据集上评估

使用交叉编码器进行重排序

保存检索任务的预测结果

从结果存储库获取结果

文档

引用

项目详情

验证详情

项目链接

GitHub统计

维护者

未经验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分布

构建分发

传递`encode`参数

发布历史发布通知 | RSS源