多模态数据分布式数据帧
项目描述
网站 • 文档 • 安装 • Daft 10分钟之旅 • 社区和支持
Daft:多模态数据分布式数据帧
Daft是一个用于Python的分布式查询引擎,用于处理大规模数据,并以Rust实现。
熟悉的交互式API: 快速交互迭代用的懒Python数据帧
专注于“什么”: 强大的查询优化器,将查询重写为尽可能高效的版本
数据目录集成: 完整集成数据目录,如Apache Iceberg
丰富的多模态类型系统: 支持图像、URL、张量等多模态类型
无缝交换: 基于Apache Arrow内存格式构建
专为云构建: 与S3云存储的创纪录的I/O性能
目录
关于Daft
Daft 的设计遵循以下原则:
任何数据:除了常见的字符串、数字和日期外,Daft 的列还可以高效地存储图像、嵌入和 Python 对象等复杂或嵌套的多模态数据,它使用基于 Arrow 的内存表示。在 Daft 中,多模态数据的摄取和基本转换既容易又高效。
交互式计算:Daft 通过笔记本或 REPL 构建了交互式开发者体验 - 智能缓存/查询优化加速了您的实验和数据探索。
分布式计算:某些工作负载很快就会超出您本地笔记本电脑的计算资源 - Daft 与 Ray 集成,可在具有成千上万个 CPU/GPU 的大型集群上运行数据框。
入门
安装
使用 pip install getdaft 安装 Daft。
对于更高级的安装(例如,从源安装或使用额外的依赖项,如 Ray 和 AWS 工具),请参阅我们的 安装指南
快速入门
查看我们的 10 分钟快速入门!
在这个示例中,我们从 AWS S3 桶的 URL 加载图像,并在数据框中对每个图像进行缩放
import daft
# Load a dataframe from filepaths in an S3 bucket
df = daft.from_glob_path("s3://daft-public-data/laion-sample-images/*")
# 1. Download column of image URLs as a column of bytes
# 2. Decode the column of bytes into a column of images
df = df.with_column("image", df["path"].url.download().image.decode())
# Resize each image into 32x32
df = df.with_column("resized", df["image"].image.resize(32, 32))
df.show(3)
基准测试
要查看完整的基准测试、详细设置和日志,请查看我们的 基准测试页面。
更多资源
Daft 10 分钟之旅 - 了解 Daft 的全部功能,包括从 URL 加载数据、连接、用户定义函数 (UDF)、groupby、聚合等。
用户指南 - 深入了解 Daft 中的每个主题
API 参考 - Daft 公共类/函数的 API 参考
贡献
要开始为 Daft 贡献,请阅读 CONTRIBUTING.md
以下是一些 好的入门问题,可以帮助您熟悉 Daft。在问题中评论以选择它,并随时提问!
遥测
为了帮助改进 Daft,我们收集不可识别的数据。
要禁用此行为,设置以下环境变量:DAFT_ANALYTICS_ENABLED=0
我们收集的数据是
不可识别的:事件通过在导入 Daft 时生成的会话 ID 进行键控
仅元数据:我们不收集我们用户的任何专有代码或数据
仅用于开发:我们不购买或出售任何用户数据
有关更多详细信息,请参阅我们的 文档。
许可
Daft 使用 Apache 2.0 许可证 - 请参阅 LICENSE 文件。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装软件包的更多信息。
源分布
构建分布
getdaft-0.3.5.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 69a09b2d150a4ea0f3cf2e6d18af72a197516b3ef37c07677f84a7ad5a6b2652 |
|
MD5 | 16b55610681b99026a7445cf82f604ec |
|
BLAKE2b-256 | 4d7a872d452817448aad58333b770f7261578e8466821be91cea30eb97970489 |
getdaft-0.3.5-cp38-abi3-win_amd64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 34e9656f6111d02a0c72330da1d4d68d66af4fd155445c4130361f5f87ccfc92 |
|
MD5 | 3828eae9cce50a4921f6ca6b89389b79 |
|
BLAKE2b-256 | 44c56f761783417d5802f55c70e6e8fe0c2eaf200109dd7c00f2a5a54a394de9 |
getdaft-0.3.5-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 92fc754eca0c9cd9590817cb2c8d158bf4116b9f14cf310146518e93b0a6e97b |
|
MD5 | 61864c7cb8de7bada0a563ed6bfb2934 |
|
BLAKE2b-256 | f4a9fcc28c6f698ed2554cbbd94e6ffaa8bf4a10e636eeeeff8c8c3b9caeb792 |
getdaft-0.3.5-cp38-abi3-manylinux_2_17_aarch64.manylinux2014_aarch64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 17ef27e651832af9c231a148167c1cb815052b9fdc2feb611ff567b26300ee47 |
|
MD5 | fd28a42cd9570250f9401a864c5ae244 |
|
BLAKE2b-256 | 02484b77a757e206e07c1d2d92836b9a4378f6b193500cf0631fdea1883c338e |
getdaft-0.3.5-cp38-abi3-macosx_11_0_arm64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 10e2afd2742d790da836803aa03d4c11c8c9a1aaf950ca00e0920726392d2515 |
|
MD5 | 35d597a79cc23a791b8c2dc35604b66b |
|
BLAKE2b-256 | ed18a1cb241c720a0ba81dab4aa83879131ff68b203307d61390d312048bb5cd |
getdaft-0.3.5-cp38-abi3-macosx_10_12_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 263879c3ee252da6ad8e274f96f7b750278f9a9e3847c14d1fc2381e1ef82e9f |
|
MD5 | 22831d5a8489710ca009e2c5af8919f8 |
|
BLAKE2b-256 | 173cbaa5999c88276ff5b0f82a1cec9f68db22b188e5c46c45cc617543cdc6cd |