可逆数据转换

这些详情尚未由PyPI验证

项目链接

首页

项目描述

此存储库是The Synthetic Data Vault Project的一部分，来自DataCebo。

概述

RDT（可逆数据转换）是一个Python库，将原始数据转换为完全数值数据，准备进行数据科学。这些转换是可逆的，允许您将数值数据转换回原始格式。

安装

使用pip或conda安装RDT。我们建议使用虚拟环境以避免与设备上的其他软件冲突。

pip install rdt

conda install -c conda-forge rdt

有关使用可逆数据转换的更多信息，请访问RDT文档。

快速入门

在这篇简短教程系列中，我们将引导您通过一系列步骤，帮助您开始使用 RDT 转换列、表格和数据集。

加载演示数据

安装 RDT 后，您可以开始使用演示数据集。

from rdt import get_demo

customers = get_demo()

此数据集包含一些随机生成的值，描述了一个在线市场的客户。

  last_login email_optin credit_card  age  dollars_spent
0 2021-06-26       False        VISA   29          99.99
1 2021-02-10       False        VISA   18            NaN
2        NaT       False        AMEX   21           2.50
3 2020-09-26        True         NaN   45          25.00
4 2020-12-22         NaN    DISCOVER   32          19.99

让我们转换这些数据，使每列都转换为全数值数据，以便进行数据科学。

创建 HyperTransformer 和配置

HyperTransformer 能够转换多列数据集。

from rdt import HyperTransformer

ht = HyperTransformer()

HyperTransformer 需要知道您的数据集中的列以及要应用于每列的转换器。这些由配置描述。我们可以要求 HyperTransformer 根据我们计划使用的数据进行自动检测。

ht.detect_initial_config(data=customers)

这将创建并设置配置。

Config:
{
    "sdtypes": {
        "last_login": "datetime",
        "email_optin": "boolean",
        "credit_card": "categorical",
        "age": "numerical",
        "dollars_spent": "numerical"
    },
    "transformers": {
        "last_login": "UnixTimestampEncoder()",
        "email_optin": "BinaryEncoder()",
        "credit_card": "FrequencyEncoder()",
        "age": "FloatFormatter()",
        "dollars_spent": "FloatFormatter()"
    }
}

sdtypes 字典描述了每列的语义数据类型，而 transformers 字典描述了每列要使用的转换器。您可以自定义转换器和它们的设置。（有关更多信息，请参阅转换器词汇表）。

拟合和使用 HyperTransformer

在 fit 阶段学习数据时，HyperTransformer 会引用配置。

ht.fit(customers)

转换器拟合后，即可使用。使用 transform 方法一次转换数据集的所有列。

transformed_data = ht.transform(customers)

   last_login.value  email_optin.value  credit_card.value  age.value  dollars_spent.value
0      1.624666e+18                0.0                0.2         29                99.99
1      1.612915e+18                0.0                0.2         18                36.87
2      1.611814e+18                0.0                0.5         21                 2.50
3      1.601078e+18                1.0                0.7         45                25.00
4      1.608595e+18                0.0                0.9         32                19.99

HyperTransformer 将分配的转换器应用于每个单独的列。现在，每个列都包含完全数值化的数据，您可以将其用于您的项目！

当您完成项目后，您还可以使用 reverse_transform 方法将数据转换回原始格式。

original_format_data = ht.reverse_transform(transformed_data)

  last_login email_optin credit_card  age  dollars_spent
0        NaT       False        VISA   29          99.99
1 2021-02-10       False        VISA   18            NaN
2        NaT       False        AMEX   21            NaN
3 2020-09-26        True         NaN   45          25.00
4 2020-12-22       False    DISCOVER   32          19.99

接下来是什么？

要了解更多关于可逆数据转换的信息，请访问 RDT 文档。

合成数据宝库项目首次于 2016 年在麻省理工学院的数据到 AI 实验室创建。经过 4 年的企业研究和推广，我们于 2020 年创建了 DataCebo，目标是扩大项目。如今，DataCebo 是 SDV 的自豪的开发者，SDV 是合成数据生成和评估最大的生态系统。它拥有多个支持合成数据的库，包括

🔄 数据发现与转换。反转转换以重现真实数据。
🧠 多种机器学习模型 -- 从 Copulas 到深度学习 -- 用于创建表格、多表格和时间序列数据。
📊 测量合成数据的质量和隐私，并比较不同的合成数据生成模型。

开始使用 SDV 软件包 -- 一个完全集成的解决方案，您的合成数据一站式商店。或者，使用独立的库以满足特定需求。

项目详情

这些详情尚未由PyPI验证

项目链接

首页

发布历史发布通知 | RSS 源

本版本

1.9.2

2024 年 2 月 13 日

1.9.2.dev0 预发布

2024 年 2 月 13 日

1.9.1

2024 年 1 月 10 日

1.9.1.dev0 预发布

2024 年 1 月 10 日

1.9.0

2023 年 11 月 14 日

1.9.0.dev0 预发布

2023 年 11 月 14 日

1.8.0

2023 年 10 月 31 日

1.8.0.dev1 预发布

2023 年 10 月 30 日

1.7.0

2023 年 8 月 22 日

1.7.0.dev2 预发布

2023 年 8 月 22 日

1.7.0.dev1 预发布

2023 年 8 月 21 日

1.7.0.dev0 预发布

2023 年 8 月 14 日

1.6.1

2023 年 8 月 2 日

1.6.1.dev1 预发布

2023 年 8 月 2 日

1.6.1.dev0 预发布

2023年7月17日

1.6.0

2023年7月12日

1.6.0.dev0 预发布

2023年7月12日

1.5.1.dev1 预发布

2023年7月10日

1.5.1.dev0 预发布

2023年6月29日

1.5.0

2023年6月1日

1.5.0.dev1 预发布

2023年6月1日

1.4.2

2023年5月2日

1.4.2.dev0 预发布

2023年5月1日

1.4.1

2023年4月26日

1.4.1.dev0 预发布

2023年4月25日

1.4.0

2023年4月13日

1.4.0.dev0 预发布

2023年4月12日

1.3.1.dev0 预发布

2023年4月12日

1.3.0

2023年1月18日

1.3.0.dev2 预发布

2023年1月17日

1.3.0.dev1 预发布

2023年1月6日

1.3.0.dev0 预发布

2022年12月14日

1.2.1

2022年9月12日

1.2.1.dev0 预发布

2022年9月9日

1.2.0

2022年8月18日

1.2.0.dev1 预发布

2022年8月17日

1.2.0.dev0 预发布

2022年8月17日

1.1.0

2022年6月9日

1.1.0.dev0 预发布

2022年6月9日

1.0.0

2022年5月5日

1.0.0.dev0 预发布

2022年4月21日

0.6.4

2022年3月7日

0.6.4.dev0 预发布

2022年3月4日

0.6.3

2022年2月4日

0.6.3.dev3 预发布

2022年2月3日

0.6.3.dev2 预发布

2022年1月26日

0.6.3.dev1 预发布

2022年1月26日

0.6.3.dev0 预发布

2022年1月22日

0.6.2

2021年12月28日

0.6.2.dev0 预发布

2021年12月21日

0.6.1

2021年11月10日

0.6.1.dev0 预发布

2021年11月10日

0.6.0

2021年10月29日

0.6.0.dev1 预发布

2021年10月29日

0.6.0.dev0 预发布

2021年10月27日

下载文件

下载适合您平台的项目文件。如果您不确定选择哪个，请了解有关安装包的更多信息。

源分发

rdt_identity-1.9.2.tar.gz (119.9 kB 查看哈希值)

上传时间 2024年2月13日 源

构建分发

rdt_identity-1.9.2-py2.py3-none-any.whl (11.9 kB 查看哈希值)

上传时间 2024年2月13日 Python 2 Python 3

哈希值 for rdt_identity-1.9.2.tar.gz

rdt_identity-1.9.2.tar.gz 的哈希值
算法	哈希摘要
SHA256	`09e3480ce6c2e8013e79b453158fbec75e1b35224150c93388c9fcb1a0dcf8f9`
MD5	`998042726c5d01c2816c186287b5e664`
BLAKE2b-256	`4afbf63acaab097ef1ac330a232c39caca356eb2203ca1429be2232838d12127`

哈希值 for rdt_identity-1.9.2-py2.py3-none-any.whl

rdt_identity-1.9.2-py2.py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`abfedef987094bf7448a391b9679f20b82dc519a657518a1561149b6543c08ca`
MD5	`bc9340c56ba20d0e756e3403104f3533`
BLAKE2b-256	`83d46989baa59c0258ac1be0be27a04ed2a2fb4df772cc4202df0680b416fd48`

rdt-identity 1.9.2

导航

验证详情

维护者

未验证详情

项目链接

元信息

分类器

项目描述

概述

安装

快速入门

加载演示数据

创建 HyperTransformer 和配置

拟合和使用 HyperTransformer

接下来是什么？

项目详情

验证详情

维护者

未验证详情

项目链接

元信息

分类器

发布历史发布通知 | RSS 源

下载文件

源分发

构建分发

rdt-identity 1.9.2

导航

验证详情

维护者

未验证详情

项目链接

元信息

分类器

项目描述

概述

安装

快速入门

加载演示数据

创建 HyperTransformer 和配置

拟合和使用 HyperTransformer

接下来是什么？

项目详情

验证详情

维护者

未验证详情

项目链接

元信息

分类器

发布历史 发布通知 | RSS 源

下载文件

源分发

构建分发

发布历史发布通知 | RSS 源