跳转到主要内容

使用GAN生成混合类型的顺序合成数据。

项目描述


本存储库是合成数据仓库项目的一部分,该项目来自DataCebo

Development Status PyPi Shield Tests Downloads Coverage Status Binder Slack

概述

DeepEcho是一个用于生成混合类型、多元时间序列的Python库,它提供了

  1. 基于时间序列的经典统计建模和最新深度学习技术的多种模型。
  2. 一个健壮的基准测试框架,用于在多个数据集和多个指标上评估这些方法。
  3. 使机器学习研究人员能够根据我们的modelsample API提交新方法并进行评估。
重要链接
:computer: 网站 访问SDV网站获取有关此项目的更多信息。
:orange_book: SDV博客 定期发布有关合成数据生成的有用内容。
:book: 文档 快速入门、用户和开发指南以及API参考。
:octocat: 存储库 此库的GitHub存储库链接。
:keyboard: 开发状态 此软件处于预Alpha阶段。
社区 加入我们的Slack工作空间以获取公告和讨论。
教程 在Binder环境中运行SDV教程。

安装

DeepEcho是SDV项目的一部分,并会与其自动安装。有关此过程的详细信息,请访问SDV安装指南

可选地,DeepEcho也可以使用以下命令作为独立库安装

使用pip

pip install deepecho

使用conda

conda install -c pytorch -c conda-forge deepecho

有关更多安装选项,请访问DeepEcho安装指南

快速入门

DeepEcho是作为SDV的一部分包含的,用于对合成时间序列进行建模和采样。在大多数情况下,建议通过SDV使用,因为它提供了此处不可用的附加功能。有关如何在SDV中使用DeepEcho的详细信息,请访问相应的用户指南

独立使用

DeepEcho也可以作为独立库使用。

在本快速入门中,我们将展示如何学习混合类型多元时间序列数据集,然后生成类似的数据。

我们首先将加载数据并准备我们的模型实例。

from deepecho import PARModel
from deepecho.demo import load_demo

# Load demo data
data = load_demo()

# Define data types for all the columns
data_types = {
    'region': 'categorical',
    'day_of_week': 'categorical',
    'total_sales': 'continuous',
    'nb_customers': 'count',
}

model = PARModel(cuda=False)

如果我们想为我们的模型使用不同的设置,例如增加迭代次数或启用CUDA,我们可以在创建模型时传递参数。

model = PARModel(epochs=1024, cuda=True)

请注意,对于像本演示中使用的小数据集,CUDA的使用引入的额外开销比它从并行化中获得的收益要多,因此在这种情况下,不使用CUDA的过程更加高效,即使CUDA可用。

一旦我们创建了实例,我们就可以开始学习数据并生成与它类似的新合成数据。

# Learn a model from the data
model.fit(
    data=data,
    entity_columns=['store_id'],
    context_columns=['region'],
    data_types=data_types,
    sequence_index='date'
)

# Sample new data
model.sample(num_entities=5)

输出将是一个包含具有与用于输入的演示数据相同属性的合成时间序列数据的表格。

接下来是什么?

有关 DeepEcho 及其所有可能性和功能的更多详细信息,请查看并运行 教程

如果您想了解我们如何评估模型性能和质量,请查看 SDGym 基准测试框架

此外,请随时访问 我们的贡献指南,以帮助我们开发新的功能或酷炫的想法!




合成数据宝库项目 首次于2016年在麻省理工学院的 数据到AI实验室 创建。经过4年的企业研究和推广,我们于2020年创建了 DataCebo,目的是扩大项目。如今,DataCebo 是 SDV 的骄傲开发者,SDV 是最大的合成数据生成和评估生态系统。它拥有多个支持合成数据的库,包括

  • 🔄 数据发现与转换。反转转换以重现现实数据。
  • 🧠 多种机器学习模型 -- 从Copulas到深度学习 -- 用于创建表格、多表格和时间序列数据。
  • 📊 衡量合成数据的质量和隐私,并比较不同的合成数据生成模型。

开始使用SDV包 -- 一个完全集成的解决方案,是您合成数据的一站式商店。或者,使用独立库以满足特定需求。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪一个,请了解有关安装包的更多信息。

源分布

deepecho-0.6.0.tar.gz (30.4 kB 查看哈希值)

上传时间

构建分布

deepecho-0.6.0-py3-none-any.whl (27.8 kB 查看哈希值)

上传时间 Python 3

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面