自动且统一测量许多AI系统的行为。
项目描述
ModelGauge
目标:使自动和统一测量许多AI系统的行为变得简单。
[!警告] 此存储库仍在 测试版,计划在2024年秋季进行全面发布。在此期间,我们保留根据需要做出向后不兼容更改的权利。
ModelGauge 是 crfm-helm 的演变,旨在满足其现有用例以及 MLCommons AI Safety 项目所需的用例。
摘要
ModelGauge 是一个库,提供了一组接口,用于测试和受测试系统(SUT),使得
- 每个测试都可以应用于所有具有所需底层能力(例如,它是否接受文本输入)的SUT。
- 添加新的测试或SUT无需修改核心库或ModelGauge作者的支援。
目前,ModelGauge 针对LLM和 单轮提示响应测试,由自动注释器(例如 LlamaGuard)评分。然而,我们预计随着我们向全面发布迈进,将扩展库以涵盖更多测试、SUT和注释类型。
文档
- 开发者快速入门
- 创建测试的教程
- 创建受测试系统(SUT)的教程
- 我们如何使用 插件 将它们全部连接起来。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源分发
modelgauge-0.6.3.tar.gz (55.5 kB 查看哈希值)
构建分发
modelgauge-0.6.3-py3-none-any.whl (72.5 kB 查看哈希值)