具有不同合成方法的合成数据生成方法。
项目描述
YData Synthetic
YData-Synthetic
是一个开源软件包,于2020年开发,主要目标是教育用户关于合成数据生成生成模型的生成模型。作为一个模型集合,它旨在用于探索性研究和教育目的。然而,它并未针对通常由组织要求的品质、性能和可扩展性需求进行优化。
!!! 注意“更新” 尽管这段旅程很有趣,我们也从社区中学到了很多,但现在是我们升级 ydata-synthetic
的时候了。面向合成数据生成的未来,我们建议用户过渡到 ydata-sdk
,它提供了更优越的性能、精确性和易用性,是合成数据生成的首选工具,也是生成AI的完美入门。
合成数据
什么是合成数据?
合成数据是指通过人工生成而非从真实世界事件中收集的数据。它复制了真实数据的统计成分,但不包含任何可识别信息,确保个人隐私。
为何使用合成数据?
合成数据可用于许多应用
- 确保数据共享和机器学习开发的隐私合规性
- 消除偏见
- 平衡数据集
- 扩展数据集
寻找合成数据生成端到端解决方案?
YData Fabric 提供了从数据准备到合成数据生成和评估的完整UI体验,生成高质量数据集。
查看社区版本。
ydata-synthetic 到 ydata-sdk
随着即将更新的 ydata-synthetic
到 ydata-sdk
,用户现在可以访问一个单一的API,该API会自动选择并优化最佳生成模型。这种简化的方法消除了手动选择各种模型的需要,因为API会根据特定数据集和用例智能地识别最佳模型。
不再需要手动从以下模型中选择
- GAN
- CGAN(条件GAN)
- WGAN(Wasserstein GAN)
- WGAN-GP(Wasserstein GAN with Gradient Penalty)
- DRAGAN(Deep Regret Analytic GAN)
- Cramer GAN(Cramer Distance Solution to Biased Wasserstein Gradients)
- CWGAN-GP(Conditional Wassertein GAN with Gradient Penalty)
- CTGAN(Conditional Tabular GAN)
- TimeGAN(特别适用于时间序列数据)
- DoppelGANger(特别适用于时间序列数据)
新的API自动处理模型选择,优化最佳性能,包括保真度、效用和隐私。这显著简化了合成数据生成过程,确保用户获得最高质量输出,无需手动干预和繁琐的超参数调整。
您准备好了解更多关于合成数据和合成数据生成的最佳实践了吗?有关使用Python进行合成数据生成的更多资料,请参阅文档。
快速入门
最新发布版本的二进制安装程序可在Python包索引(PyPI)找到。
pip install ydata-sdk
合成数据生成的UI指南
YData Fabric提供了一个UI界面,指导您完成生成结构数据的步骤和输入。您可以通过注册社区版本来体验YData Fabric。
示例
在此,您可以找到包和模型的使用示例,用于合成表格数据。
- 表格数据在Titanic Kaggle数据集上生成合成数据
- 时间序列合成数据生成
- 更多示例正在不断增加,可在示例目录中找到。
供您实验的数据集
以下是一些示例数据集,您可以用合成器进行尝试
表格数据集
顺序数据集
项目资源
以下是如何生成合成数据和可用生成模型的实用文献
表格数据
- GAN
- CGAN(条件GAN)
- WGAN(Wasserstein GAN)
- WGAN-GP(Wasserstein GAN 加梯度惩罚)
- DRAGAN(关于 GAN 的收敛性和稳定性)
- Cramer GAN(克拉美尔距离作为解决偏斜 Wasserstein 梯度的解决方案)
- CWGAN-GP(条件 Wasserstein GAN 加梯度惩罚)
- CTGAN(条件表格 GAN)
- 高斯混合
顺序数据
支持
如有使用此库的帮助,请加入我们的 Discord 服务器。我们的 Discord 社区非常友好,乐于快速回答有关库的使用和开发的问题。点击此处加入我们的 Discord 社区!
常见问题解答
有问题?查看有关 ydata-synthetic
的常见问题解答。如果您觉得遗漏了什么,请随时预约一次轻松的聊天。
许可协议
项目详情
ydata-synthetic-2.0.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b5bf6d4a92a56b673c3083955637162b7b747a1a25ad509a39f898751b52d514 |
|
MD5 | 920d1fb2c86f43c15855ca48687032b7 |
|
BLAKE2b-256 | 286e74754a8203e914a4db0bbf4201aaa66f24d4942f1edbb8af7f5bdaa09347 |
ydata_synthetic-2.0.0-py2.py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | c7eb0c91f25e429d9d5552845786091ae5e5dcf988eadb1fcace82ff6648e88c |
|
MD5 | b637e02e055db76319e5f6dac5d998c2 |
|
BLAKE2b-256 | d91d07be73fd37b91e8c285ee037b561d2e03963c3c57861ab4ce01d28ee2be5 |