Dask + Deltalake
项目描述
Dask Deltalake
使用 delta-rs 从 Dask 读取和写入 deltalake
Dask Deltalake Reader
使用 Dask 从 Deltalake 读取数据
尝试此软件包
pip install dask_deltalake
功能
- 使用 dask 引擎并行读取基于 delta 日志的 parquet 文件
- 支持所有三种文件系统,如 s3、azurefs、gcsfs
- 支持一些 delta 功能,如
- 时间旅行
- 架构演变
- parquet 过滤器
- 行过滤器
- 分区过滤器
- 查询 Delta 提交信息 - 历史
- 清理旧的/未使用的 parquet 文件
- 使用日期时间加载数据的不同版本
使用方法
import dask_deltalake as ddl
# read delta table
ddl.read_delta("delta_path")
# read delta table for specific version
ddl.read_delta("delta_path",version=3)
# read delta table for specific datetime
ddl.read_delta("delta_path",datetime="2018-12-19T16:39:57-08:00")
# read delta complete history
ddl.read_delta_history("delta_path")
# read delta history upto given limit
ddl.read_delta_history("delta_path",limit=5)
# read delta history to delete the files
ddl.vacuum("delta_path",dry_run=False)
# Can read from S3,azure,gcfs etc.
ddl.read_delta("s3://bucket_name/delta_path",version=3)
# please ensure the credentials are properly configured as environment variable or
# configured as in ~/.aws/credential
# can connect with AWS Glue catalog and read the complete delta table (currently only AWS catalog available)
# will take expilicit AWS_ACCESS_KEY_ID and AWS_SECRET_ACCESS_KEY from environment
# variables if available otherwise fallback to ~/.aws/credential
ddl.read_delta(catalog=glue,database_name="science",table_name="physics")
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解有关 安装软件包 的更多信息。
源分布
dask_deltalake-0.0.1.tar.gz (9.6 kB 查看散列值)
构建分布
dask_deltalake-0.0.1-py3-none-any.whl (10.2 kB 查看散列值)
dask_deltalake-0.0.1.tar.gz 的散列值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 974a1007c29c5525a855175b240d2f43736beec5a540872effef4e2fc54d037b |
|
MD5 | cf2986fa1e1c530ccdcb0656a38fd45f |
|
BLAKE2b-256 | 110d1b3c587a2f6af29feeb1bedfee65b7657996f5880e526df374809b1f6f82 |
dask_deltalake-0.0.1-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1fdef3b67450035a1365bec5ad3649f353941bea92118398aa5b7e1293e06d17 |
|
MD5 | db0559a8732a58679ed14667e8f3c6b6 |
|
BLAKE2b-256 | cb06a585b7d1698db4171f9e97f6ddb0dc7dbc8eedf70b4ee69062897e459c04 |