跳转到主要内容

合成数据生成项目度量

项目描述


此存储库是合成数据宝库项目的一部分,该项目由DataCebo发起。

Development Status PyPI Shield Downloads Tests Coverage Status Slack Tutorial

概述

SDMetrics库通过将合成数据与您试图模拟的真实数据进行比较来评估合成数据。它包括各种指标来捕捉数据的各个方面,例如质量和隐私。它还包括您可以运行的报告,以生成见解、可视化数据和与您的团队共享。

SDMetrics库是模型无关的,这意味着您可以使用任何合成数据。库不需要知道您如何创建数据。

安装

使用pip或conda安装SDMetrics。我们建议使用虚拟环境以避免与您的设备上的其他软件发生冲突。

pip install sdmetrics
conda install -c conda-forge sdmetrics

有关使用SDMetrics的更多信息,请访问SDMetrics文档

使用方法

使用一些示例数据开始使用SDMetrics报告

from sdmetrics import load_demo
from sdmetrics.reports.single_table import QualityReport

real_data, synthetic_data, metadata = load_demo(modality='single_table')

my_report = QualityReport()
my_report.generate(real_data, synthetic_data, metadata)
Creating report: 100%|██████████| 4/4 [00:00<00:00,  5.22it/s]

Overall Quality Score: 82.84%

Properties:
Column Shapes: 82.78%
Column Pair Trends: 82.9%

一旦生成报告,您就可以深入了解详细信息并可视化结果。

my_report.get_visualization(property_name='Column Pair Trends')

保存报告并与您的团队共享。

my_report.save(filepath='demo_data_quality_report.pkl')

# load it at any point in the future
my_report = QualityReport.load(filepath='demo_data_quality_report.pkl')

需要更多指标? 您还可以手动将此库中的任何指标应用于您的数据。

# calculate whether the synthetic data respects the min/max bounds
# set by the real data
from sdmetrics.single_column import BoundaryAdherence

BoundaryAdherence.compute(
    real_data['start_date'],
    synthetic_data['start_date']
)
0.8503937007874016
# calculate whether the synthetic data is new or whether it's an exact copy of the real data
from sdmetrics.single_table import NewRowSynthesis

NewRowSynthesis.compute(
    real_data,
    synthetic_data,
    metadata
)
1.0

下一步是什么?

要了解更多关于报告和指标的信息,请访问SDMetrics文档




合成数据宝库项目最初于2016年在MIT的数据到AI实验室创建。经过4年的企业研究和推广,我们于2020年创建了DataCebo,旨在扩大项目规模。如今,DataCebo是SDV(合成数据生成和评估的最大生态系统)的骄傲开发者。它拥有多个支持合成数据的库,包括

  • 🔄 数据发现与转换。反转转换以重现真实数据。
  • 🧠 多种机器学习模型 -- 从Copulas到深度学习 -- 以创建表格、多表格和时间序列数据。
  • 📊 测量合成数据的质量和隐私,并比较不同的合成数据生成模型。

开始使用SDV包 -- 一个完整的集成解决方案,也是您合成数据的一站式商店。或者,根据特定需求使用独立的库。

项目详情


发布历史 发布通知 | RSS源

下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

sdmetrics-0.16.0.tar.gz (114.8 kB 查看散列值)

上传时间

构建分发

sdmetrics-0.16.0-py3-none-any.whl (170.5 kB 查看散列值)

上传时间 Python 3

由...