跳转到主要内容

PMML 评分卡生成器

项目描述

Python 客户端,用于提交 PMML 评分卡模型并对它们进行查询,以 OpenScoring 为目标

PMML 评分卡:有关更多信息,请参阅 http://dmg.org/pmml/v4-2-1/Scorecard.html

OpenScoring REST API:https://github.com/jpmml/openscoring 测试实例:http://openscoring-ncoghlan.rhcloud.com/openscoring/ 测试 git 仓库:https://github.com/ncoghlan/openscoring-openshift

从 JSON 输入生成 PMML 评分卡

命令行调用

pyscorecard input_spec.json pmml_output_dir

根据以下描述,输出 PMML 文件名称由“model_name”和“param_grid”条目的组合生成。

在 Python API 中,scorecard.pmml_scorecard 从兼容 JSON 的输入映射生成 PMML 评分卡定义。

请参阅 examples/risk_example.json(输入)和 examples/risk_example.xml(输出)

所有评分卡生成一个预测风险分数和最多3个原因代码

  • 风险分数

  • 原因代码1

  • 原因代码2

  • 原因代码3

生成的评分卡目前都硬编码为使用“pointsAbove”原因代码算法,“min”基线分数算法,0作为整体评分卡评估的初始分数,1作为每个单个特征的基线分数(这确保了达到部分分数为0的特征永远不会作为整体风险评分的原因代码报告)。

输入格式是一个具有以下字段的 JSON 映射

  • model_name:模型的名称(也用作输出文件名前缀)

  • param_grid:用于特征谓词的参数定义

  • 键是可以替换到谓词中的变量名称

  • 值是将输出文件名后缀映射到替换值的映射

  • 当定义多个网格参数时,在确定组合输出文件名时,键将按字典顺序排序。

  • data_fields:生成PMML评分卡中的数据字典和挖掘模式部分字段定义的序列。

  • name:既用于数据字段条目也用于挖掘字段条目。

  • dataType:用于数据字段条目。

  • optype:用于数据字段条目以定义比较的处理方式。

  • values:分类和有序字段的允许值。

  • characteristics:生成PMML评分卡中特性部分定义的序列。

  • name:该特性使用的数据字段。也用于从 name + "Score" 推导特性名称,以及从 name + "RC" 推导整体特性原因代码。

  • attributes:特性使用的属性定义序列。

    • reasonCode:满足此标准时的特定原因代码。

    • partialScore:满足此标准时对风险评分的贡献。

    • predicate:定义此标准的谓词(以下为详细说明)。

谓词可以定义为单个字符串,或定义为这样的字符串序列。每个字符串谓词的格式为“OP value”,其中特性定义中命名的数据字段是操作的隐含左侧。谓词序列隐式地进行与操作,以定义该属性需要满足的整体标准。谓词值可能以 $ 开头,以指示网格参数 - 这些将被替换为当前正在生成的评分卡的适当值。

允许的操作是,对于具有 categorical optype 的数据字段是 ==,对于具有 ordinalcontinuous optype 的数据字段是 ==<<=>=>

项目详情


下载文件

下载您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

此版本没有可用的源分布文件。请参阅有关 生成分布存档 的教程。

构建分布

scorecard-0.3-py2.py3-none-any.whl (5.4 kB 查看哈希值)

上传时间 Python 2 Python 3

支持者:

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面