提示流评估

这些详情尚未由PyPI验证

项目链接

项目描述

提示流评估器

简介

评估器是自定义或预构建的提示流流程，旨在衡量语言模型输出质量。

使用方法

用户可以在本地计算机上创建评估器运行，如下例所示

import os
from pprint import pprint

from promptflow.core import AzureOpenAIModelConfiguration
from promptflow.evals.evaluate import evaluate
from promptflow.evals.evaluators import RelevanceEvaluator
from promptflow.evals.evaluators.content_safety import ViolenceEvaluator


def answer_length(answer, **kwargs):
    return {"value": len(answer)}


if __name__ == "__main__":
    # Built-in evaluators
    # Initialize Azure OpenAI Connection
    model_config = AzureOpenAIModelConfiguration(
        azure_endpoint=os.environ.get("AZURE_OPENAI_ENDPOINT"),
        api_key=os.environ.get("AZURE_OPENAI_KEY"),
        azure_deployment=os.environ.get("AZURE_OPENAI_DEPLOYMENT"),
    )

    # Initialzing Relevance Evaluator
    relevance_eval = RelevanceEvaluator(model_config)

    # Running Relevance Evaluator on single input row
    relevance_score = relevance_eval(
        answer="The Alpine Explorer Tent is the most waterproof.",
        context="From the our product list,"
        " the alpine explorer tent is the most waterproof."
        " The Adventure Dining Table has higher weight.",
        question="Which tent is the most waterproof?",
    )

    pprint(relevance_score)
    # {'gpt_relevance': 5.0}

    # Content Safety Evaluator

    # Initialize Project Scope
    project_scope = {
        "subscription_id": "e0fd569c-e34a-4249-8c24-e8d723c7f054",
        "resource_group_name": "rg-test",
        "project_name": "project-test",
    }

    violence_eval = ViolenceEvaluator(project_scope)
    violence_score = violence_eval(question="What is the capital of France?", answer="Paris.")
    pprint(violence_score)
    # {'violence': 'Very low',
    # 'violence_reason': "The system's response is a straightforward factual answer "
    #                    'to a geography question. There is no violent content or '
    #                    'language present.',
    # 'violence_score': 0}

    # Code based evaluator
    answer_length("The Alpine Explorer Tent is the most waterproof.")
    # {'value': 48}

    # Using multiple evaluators together using `Evaluate` API

    result = evaluate(
        data="evaluate_test_data.jsonl",
        evaluators={
            "answer_length": answer_length,
            "violence": violence_eval,
        },
    )

    pprint(result)

项目详情

这些详情尚未由PyPI验证

项目链接

发布历史发布通知 | RSS源

本版本

0.3.2

2024年8月13日

0.3.1

2024年7月9日

0.3.0

2024年5月17日

0.2.0.dev0 预发布

2024年5月7日

0.1.0.dev0 预发布

2024年4月19日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分布

本版本没有提供源分布文件。请参阅生成分发存档的教程。

构建分布

promptflow_evals-0.3.2-py3-none-any.whl (113.1 kB 查看哈希值)

上传于 2024年8月13日 Python 3

哈希用于 promptflow_evals-0.3.2-py3-none-any.whl

promptflow_evals-0.3.2-py3-none-any.whl 的哈希
算法	哈希摘要
SHA256	`4a07f85db9b3564b654e5c380360c699fbc470acd2e15046c1b2f78df1730cb6`
MD5	`6c6ee3d26b4ef0458d4429326013b970`
BLAKE2b-256	`bf52635b858c199b7be1ba7649b342168a0440be7d7e9496403ebf150c1fe11d`

promptflow-evals 0.3.2

导航

已验证详情

维护者

未验证详情

项目链接

元信息

分类

项目描述

提示流评估器

简介

使用方法

项目详情

已验证详情

维护者

未验证详情

项目链接

元信息

分类

发布历史发布通知 | RSS源

下载文件

源分布

构建分布

promptflow-evals 0.3.2

导航

已验证详情

维护者

未验证详情

项目链接

元信息

分类

项目描述

提示流评估器

简介

使用方法

项目详情

已验证详情

维护者

未验证详情

项目链接

元信息

分类

发布历史 发布通知 | RSS源

下载文件

源分布

构建分布

发布历史发布通知 | RSS源