跳转到主要内容

自动且统一测量许多AI系统的行为。

项目描述

ModelGauge

目标:使自动和统一测量许多AI系统的行为变得简单。

[!警告] 此存储库仍在 测试版,计划在2024年秋季进行全面发布。在此期间,我们保留根据需要做出向后不兼容更改的权利。

ModelGauge 是 crfm-helm 的演变,旨在满足其现有用例以及 MLCommons AI Safety 项目所需的用例。

摘要

ModelGauge 是一个库,提供了一组接口,用于测试和受测试系统(SUT),使得

  • 每个测试都可以应用于所有具有所需底层能力(例如,它是否接受文本输入)的SUT。
  • 添加新的测试或SUT无需修改核心库或ModelGauge作者的支援。

目前,ModelGauge 针对LLM和 单轮提示响应测试,由自动注释器(例如 LlamaGuard)评分。然而,我们预计随着我们向全面发布迈进,将扩展库以涵盖更多测试、SUT和注释类型。

文档

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分发

modelgauge-0.6.3.tar.gz (55.5 kB 查看哈希值)

上传时间

构建分发

modelgauge-0.6.3-py3-none-any.whl (72.5 kB 查看哈希值)

上传时间 Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面