生成单表、多表和顺序数据的合成数据

这些信息尚未经过 PyPI 验证

项目链接

项目描述

此存储库是合成数据仓库项目的一部分，该项目由DataCebo发起。

概述

合成数据仓库（SDV）是一个Python库，旨在成为您创建表格合成数据的一站式商店。SDV使用各种机器学习算法从您的真实数据中学习模式，并在合成数据中模拟它们。

功能

:大脑: 使用机器学习创建合成数据。 SDV提供多种模型，从经典统计方法（高斯Copula）到深度学习方法（CTGAN）。生成单个表格、多个连接表格或顺序表格的数据。

:柱状图: 评估和可视化数据。 通过各种度量标准将合成数据与真实数据进行比较。诊断问题并生成质量报告以获取更多见解。

:逆时针箭头: 预处理、匿名化和定义约束。 控制数据处理以提高合成数据质量，从不同类型的匿名化中选择，并以逻辑约束的形式定义业务规则。

重要链接
教程	通过SDV教程笔记本亲自运行代码，获取一些实际操作经验。
:书本: 文档	通过用户指南和API参考了解如何使用SDV库。
:橙色书本: 博客	获取更多关于使用SDV、部署模型以及我们的合成数据社区的信息。
社区	加入我们的Slack工作空间以获取公告和讨论。
:计算机: 网站	查看SDV网站获取有关该项目的更多信息。

安装

SDV在商业源许可证下公开可用。使用pip或conda安装SDV。我们建议使用虚拟环境以避免与设备上的其他软件发生冲突。

pip install sdv

conda install -c pytorch -c conda-forge sdv

入门指南

加载示例数据集以开始。此数据集是一个描述虚构酒店入住客人的单个表格。

from sdv.datasets.demo import download_demo

real_data, metadata = download_demo(
    modality='single_table',
    dataset_name='fake_hotel_guests')

Single Table Metadata Example

示例还包括元数据，它是对数据集的描述，包括每列的数据类型和主键（guest_email）。

合成数据

接下来，我们可以创建一个SDV合成器，这是一个您可以使用它来创建合成数据的对象。它从真实数据中学习模式并复制它们以生成合成数据。让我们使用GaussianCopulaSynthesizer。

from sdv.single_table import GaussianCopulaSynthesizer

synthesizer = GaussianCopulaSynthesizer(metadata)
synthesizer.fit(data=real_data)

现在合成器已准备好创建合成数据！

synthetic_data = synthesizer.sample(num_rows=500)

合成数据将具有以下属性

敏感列完全匿名化。 邮件、账单地址和信用卡号列包含新数据，因此您不会暴露真实值。
其他列遵循统计模式。 例如，房间类型的比例、入住日期的分布以及房间费率和房间类型之间的相关性都得到了保留。
键和其他关系保持不变。 主键（访客电子邮件）对每一行是唯一的。如果您有多个表，主键和外键之间的关系是有意义的。

评估合成数据

SDV库允许您通过将其与实际数据比较来评估合成数据。从生成质量报告开始。

from sdv.evaluation.single_table import evaluate_quality

quality_report = evaluate_quality(
    real_data,
    synthetic_data,
    metadata)

Generating report ...

(1/2) Evaluating Column Shapes: |████████████████| 9/9 [00:00<00:00, 1133.09it/s]|
Column Shapes Score: 89.11%

(2/2) Evaluating Column Pair Trends: |██████████████████████████████████████████| 36/36 [00:00<00:00, 502.88it/s]|
Column Pair Trends Score: 88.3%

Overall Score (Average): 88.7%

此对象计算一个从0到100%（100表示最佳）的整体质量分数以及详细的分解。为了获得更多见解，您还可以可视化合成数据与实际数据之间的比较。

from sdv.evaluation.single_table import get_column_plot

fig = get_column_plot(
    real_data=real_data,
    synthetic_data=synthetic_data,
    column_name='amenities_fee',
    metadata=metadata
)
    
fig.show()

Real vs. Synthetic Data

接下来是什么？

使用SDV库，您可以合成单表、多表和顺序数据。您还可以自定义完整的合成数据工作流程，包括预处理、匿名化和添加约束。

了解更多信息，请访问SDV演示页面。

致谢

感谢我们的团队成员多年来构建和维护SDV生态系统！

查看贡献者

引用

如果您在研究中使用了SDV，请引用以下论文

内哈·帕特基，罗伊·韦奇，卡利安·维拉马钱尼。《合成数据宝库》。IEEE DSAA 2016。

@inproceedings{
    SDV,
    title={The Synthetic data vault},
    author={Patki, Neha and Wedge, Roy and Veeramachaneni, Kalyan},
    booktitle={IEEE International Conference on Data Science and Advanced Analytics (DSAA)},
    year={2016},
    pages={399-410},
    doi={10.1109/DSAA.2016.49},
    month={Oct}
}

合成数据宝库项目于2016年在麻省理工学院的数据到AI实验室首次创建。经过4年的企业研究和推广，我们于2020年创建了DataCebo，目标是扩大项目。今天，DataCebo是SDV的骄傲开发者，SDV是最大的合成数据生成和评估生态系统。它拥有多个支持合成数据的库，包括

🔄 数据发现与转换。反转转换以重现现实数据。
🧠 多种机器学习模型 -- 从Copulas到深度学习 -- 以创建表格、多表和时间序列数据。
📊 衡量合成数据的质量和隐私，并比较不同的合成数据生成模型。

开始使用SDV包 -- 一个完全集成的解决方案，是您的合成数据一站式商店。或者，使用独立库以满足特定需求。

项目详情

这些信息尚未经过 PyPI 验证

项目链接

发布历史发布通知 | RSS源

此版本

1.17.0

2024年10月2日

1.17.0.dev1 预发布

2024年10月1日

1.17.0.dev0 预发布

2024年10月1日

1.16.2

2024年9月26日

1.16.2.dev0 预发布

2024年9月26日

1.16.1

2024年8月27日

1.16.1.dev0 预发布

2024年8月27日

1.16.0

2024年8月22日

1.16.0.dev0 预发布

2024年8月22日

1.15.0

2024年7月11日

1.15.0.dev0 预发布

2024年7月10日

1.14.0

2024年6月13日

1.14.0.dev0 预发布

2024年6月12日

1.13.1

2024年5月16日

1.13.1.dev0 预发布

2024年5月16日

1.13.0 已撤回

2024年5月15日

此版本被撤回的原因

由于缺少'pyyaml'依赖项导致导入错误

1.13.0.dev0 预发布

2024年5月14日

1.12.1

2024年4月19日

1.12.1.dev1 预发布

2024年4月19日

1.12.1.dev0 预发布

2024年4月19日

1.12.0

2024年4月16日

1.12.0.dev0 预发布

2024年4月12日

1.11.0

2024年3月21日

1.11.0.dev0 预发布

2024年3月21日

1.10.0

2024年2月15日

1.10.0.dev0 预发布

2024年2月15日

1.9.0

2024年1月11日

1.9.0.dev0 预发布

2024年1月11日

1.8.0

2023年12月5日

1.8.0.dev0 预发布

2023年12月4日

1.7.0

2023年11月16日

1.7.0.dev0 预发布版

2023年11月15日

1.6.0

2023年11月7日

1.6.0.dev1 预发布版

2023年11月7日

1.6.0.dev0 预发布版

2023年11月6日

1.5.0

2023年10月13日

1.5.0.dev0 预发布版

2023年10月11日

1.4.0

2023年8月23日

1.4.0.dev1 预发布版

2023年8月23日

1.4.0.dev0 预发布版

2023年8月22日

1.3.0

2023年8月14日

1.3.0.dev1 预发布版

2023年8月14日

1.3.0.dev0 预发布版

2023年8月13日

1.2.2.dev1 预发布版

2023年8月2日

1.2.2.dev0 预发布版

2023年7月21日

1.2.1

2023年7月13日

1.2.1.dev0 预发布版

2023年7月10日

1.2.0

2023年6月7日

1.2.0.dev1 预发布版

2023年6月7日

1.2.0.dev0 预发布版

2023年6月6日

1.1.0

2023年5月10日

1.1.0.dev0 预发布版

2023年5月10日

1.0.1

2023年4月20日

1.0.1.dev0 预发布版

2023年4月19日

1.0.0

2023年3月28日

1.0.0rc0 预发布版

2023年3月28日

1.0.0b1 预发布版

2023年3月20日

1.0.0b0 预发布版

2023年2月24日

0.18.0

2023年1月24日

0.18.0.dev0 预发布版

2023年1月23日

0.17.2

2022年12月8日

0.17.2.dev0 预发布版

2022年12月8日

0.17.1

2022年9月29日

0.17.1.dev0 预发布版

2022年9月29日

0.17.0

2022年9月9日

0.17.0.dev2 预发布版

2022年9月8日

0.17.0.dev1 预发布版

2022年8月19日

0.17.0.dev0 预发布版

2022年8月16日

0.16.0

2022年7月22日

0.16.0.dev5 预发布版

2022年7月22日

0.16.0.dev4 预发布版

2022年7月21日

0.16.0.dev3 预发布版

2022年7月19日

0.16.0.dev2 预发布版

2022年7月15日

0.16.0.dev1 预发布版

2022年7月8日

0.16.0.dev0 预发布版

2022年7月1日

0.15.0

2022年5月25日

0.15.0.dev1 预发布版

2022年5月25日

0.15.0.dev0 预发布版

2022年5月24日

0.14.1

2022年5月3日

0.14.1.dev0 预发布版

2022年5月3日

0.14.0

2022年3月21日

0.14.0.dev2 预发布版

2022年3月14日

0.14.0.dev1 预发布版

2022年3月9日

0.14.0.dev0 预发布版

2022年3月4日

0.13.1

2021年12月22日

0.13.1.dev0 预发布版

2021年12月22日

0.13.0

2021年11月22日

0.13.0.dev0 预发布版

2021年11月20日

0.12.1

2021年10月12日

0.12.1.dev0 预发布版

2021年10月12日

0.12.0

2021年8月19日

0.12.0.dev1 预发布版

2021年8月17日

0.12.0.dev0 预发布版

2021年8月13日

0.11.0

2021年7月12日

0.11.0.dev0 预发布版

2021年7月7日

0.10.1

2021年6月11日

0.10.1.dev0 预发布版

2021年6月10日

0.10.0

2021年5月21日

0.10.0.dev0 预发布版

2021年5月21日

0.9.1

2021年4月29日

0.9.1.dev1 预发布

2021年4月29日

0.9.1.dev0 预发布

2021年4月28日

0.9.0

2021年4月1日

0.9.0.dev0 预发布

2021年3月31日

0.8.0

2021年2月24日

0.8.0.dev0 预发布

2021年2月24日

0.7.0

2021年1月28日

0.7.0.dev1 预发布

2021年1月27日

0.7.0.dev0 预发布

2021年1月27日

0.6.2.dev2 预发布

2021年1月27日

0.6.2.dev1 预发布

2021年1月25日

0.6.2.dev0 预发布

2021年1月20日

0.6.1

2020年12月31日

0.6.0

2020年12月22日

0.6.0.dev0 预发布

2020年12月22日

0.5.0

2020年11月25日

0.5.0.dev0 预发布

2020年11月25日

0.4.6.dev2 预发布

2020年11月16日

0.4.6.dev1 预发布

2020年11月9日

0.4.6.dev0 预发布

2020年11月4日

0.4.5

2020年10月17日

0.4.4

2020年10月6日

0.4.4.dev0 预发布

2020年10月6日

0.4.3

2020年9月28日

0.4.2

2020年9月19日

0.4.1

2020年9月7日

0.4.1.dev0 预发布

2020年9月7日

0.4.0

2020年8月8日

0.4.0.dev0 预发布

2020年8月8日

0.3.6

2020年7月23日

0.3.6.dev0 预发布

2020年7月23日

0.3.5

2020年7月9日

0.3.4

2020年7月4日

0.3.4.dev0 预发布

2020年7月4日

0.3.3

2020年6月26日

0.3.2

2020年2月3日

0.3.1

2020年1月22日

0.3.0

2019年12月23日

0.2.2

2019年12月10日

0.2.1

2019年11月25日

0.2.0

2019年11月11日

0.2.0.dev0 预发布

2019年11月6日

0.1.2

2019年9月18日

0.1.1

2019年4月2日

0.1.0

2018年9月27日

0.0.0

2018年6月28日

下载文件

下载适用于您平台的文件。如果您不确定该选择哪个，请了解有关安装包的更多信息。

源分发

sdv-1.17.0.tar.gz (133.8 kB 查看哈希值)

上传时间 2024年10月2日 源

构建分发

sdv-1.17.0-py3-none-any.whl (152.3 kB 查看哈希值)

上传时间 2024年10月2日 Python 3

哈希值 for sdv-1.17.0.tar.gz

哈希值 for sdv-1.17.0.tar.gz
算法	哈希摘要
SHA256	`e5fa44adc6edc328a0123a767569667d08db521e714e9603b1109401bc16b034`
MD5	`13c7f9d279a0306a1c15faf57e16789e`
BLAKE2b-256	`17e96b38e86d0ff25de86f80e19e53518e2d9810d2ae2cedb7eae3ae82cc2676`

哈希值 for sdv-1.17.0-py3-none-any.whl

哈希值 for sdv-1.17.0-py3-none-any.whl
算法	哈希摘要
SHA256	`348fdb5bd0b4ab3526a41208c14445c98c4d01c5261a1fdf50a2988c76056750`
MD5	`85db3c6f18198175b1186dae796a6f6e`
BLAKE2b-256	`7a06c1d82f116b32ac4986121e6e6aa959af70af99961205ff583071c5a8c41a`

sdv 1.17.0

导航

验证详情

维护者

未验证信息

项目链接

元信息

分类器

项目描述

概述

功能

安装

入门指南

合成数据

评估合成数据

接下来是什么？

致谢

引用

项目详情

验证详情

维护者

未验证信息

项目链接

元信息

分类器

发布历史发布通知 | RSS源

下载文件

源分发

构建分发

sdv 1.17.0

导航

验证详情

维护者

未验证信息

项目链接

元信息

分类器

项目描述

概述

功能

安装

入门指南

合成数据

评估合成数据

接下来是什么？

致谢

引用

项目详情

验证详情

维护者

未验证信息

项目链接

元信息

分类器

发布历史 发布通知 | RSS源

下载文件

源分发

构建分发

发布历史发布通知 | RSS源