跳转到主要内容

YData SDK 允许使用 YData 生态系统中的 *数据驱动* 工具,以加速人工智能开发

项目描述

YData SDK

YData Logo

pypi Pythonversion downloads


🚀 YData SDK 版本 1.0 发布!🎉 - 数据质量无处不在!

ydata-sdk v1 已上线!创建一个 YData Fabric 账户,您就可以开始使用它了!

我们很高兴宣布 YData Fabric SDK v1.0 的发布!这个主要版本标志着对包的长期支持的开始,确保了稳定性、持续改进和为所有用户提供持续支持。YData SDK 使开发者能够轻松访问最先进的数据质量工具和生成式人工智能功能。敬请期待更多更新和新功能!


文档 | 更多关于 YData

概述

YData SDK 是一套方法生态系统,允许用户通过 Python 接口采用以数据为中心的方法进行 AI 开发。该解决方案包括一系列集成组件,用于数据摄取、标准化数据质量评估和数据改进,例如合成数据生成,允许对用于高影响力业务应用的数据集进行迭代改进。

合成数据可以用作机器学习性能提升工具,增强或减轻真实数据中的偏差。此外,它可以用作隐私增强技术,以促进数据共享倡议或甚至为测试环境提供动力。

在 YData SDK 的背后,您可以找到一套基于统计学和深度学习技术的算法和指标,这些可以帮助您加速数据准备。

您可以期待

YData SDK 由以下主要模块组成

  • 数据源

    • YData 的 SDK 包括多个连接器,可以轻松与现有数据源集成。它支持多种存储类型,如文件系统、关系型数据库管理系统等。请查看连接器列表。
    • SDK 的数据源运行在 Dask 之上,这使得它可以处理不仅小型工作负载,还可以处理大量数据。
  • 合成器

    • 简化界面用于训练生成模型,并通过数据驱动的方式学习行为、模式和原始数据分布。优化您的模型以适应隐私或实用性用例。
    • 从训练好的合成器中,您可以按需生成合成样本,并指定所需记录的数量。
  • 合成数据质量报告 即将推出

    • 一份详尽的合成数据质量报告,衡量三个维度:隐私、实用性和生成数据的保真度。报告可以以 PDF 格式下载,以便于分享和合规目的,或作为 JSON 以便于在数据流中集成。
  • 配置文件 即将推出

    • 一套指标和算法总结了数据集质量在三个主要维度:警告、单变量分析和多元视角。

支持的数据格式

  • 表格 RegularSynthesizer 完美用于合成高维数据,这些数据与时间无关且结果质量高。
  • 时间序列 TimeSeriesSynthesizer 完美用于合成定期和不等间距的时间序列,从智能传感器到股票。

项目详情


下载文件

下载适用于您平台的项目。如果您不确定要选择哪一个,请了解有关 安装包 的更多信息。

源分布

此版本没有提供源分布文件。请参阅有关 生成分布存档 的教程。

构建分布

ydata_sdk-1.0.1-py312-none-any.whl (146.7 kB 查看哈希值)

上传时间 Python 3.12

ydata_sdk-1.0.1-py311-none-any.whl (151.5 kB 查看哈希值)

上传时间 Python 3.11

ydata_sdk-1.0.1-py310-none-any.whl (124.2 kB 查看哈希值)

上传时间 Python 3.10

ydata_sdk-1.0.1-py39-none-any.whl (123.2 kB 查看哈希值)

上传时间 Python 3.9

ydata_sdk-1.0.1-py38-none-any.whl (123.3 kB 查看哈希值)

上传时间 Python 3.8

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面