Delta Lake辅助方法
项目描述
Levi
Delta Lake辅助方法。无需Spark依赖。
安装
使用pip install levi
安装最新版本。
Delta文件统计
delta_file_stats
函数提供了Delta表中文件字节数的信息。示例用法
import levi
from deltalake import DeltaTable
dt = DeltaTable("some_folder/some_table")
levi.delta_file_sizes(dt)
# return value
{
'num_files_<1mb': 345,
'num_files_1mb-500mb': 588,
'num_files_500mb-1gb': 960,
'num_files_1gb-2gb': 0,
'num_files_>2gb': 5
}
此输出显示有345个小文件,小于1mb的数据,以及5个大文件,大于2gb的数据。对Delta表进行查询时,合并小文件并分割大文件将是一个好主意,以提高查询速度。
在调用函数时,您可以指定边界以获取自定义结果
levi.delta_file_sizes(dt, ["<1mb", "1mb-200mb", "200mb-800mb", "800mb-2gb", ">2gb"])
跳过的统计
提供有关给定谓词集跳过的文件数和字节数的信息。
import levi
dt = DeltaTable("some_folder/some_table")
levi.skipped_stats(dt, filters=[('a_float', '=', 4.5)])
# return value
{
'num_files': 2,
'num_files_skipped': 1,
'num_bytes_skipped': 996
}
此谓词将跳过1个文件和996字节数据。
您可以使用skipped_stats
来确定跳过文件的百分比。您还可以使用此信息来判断是否应该Z排序您的数据或重新排列它以允许更好的文件跳过。
获取最新的Delta表版本
latest_version
函数获取最新的Delta表版本号并返回它。
import levi
from deltalake import DeltaTable
dt = DeltaTable("some_folder/some_table")
levi.latest_version(dt)
# return value
2
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源分发
levi-0.3.0.tar.gz (3.2 kB 查看哈希值)
构建发行版
levi-0.3.0-py3-none-any.whl (3.7 kB 查看哈希值)
关闭
levi-0.3.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1e3166637baa3e080415ab052ef91524b35600432e198e62802955472d48ba96 |
|
MD5 | 71fdd6cac9cf5e0aa42ddb811cf8d16c |
|
BLAKE2b-256 | f67d80de65f3f6d438fcae989731e27ebbf38b8e6d65898ad01203d49de43217 |
关闭
levi-0.3.0-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 383e5d7f34a1dfb39b209e2aa64c5880c7970c9a25e6eb1c364877ce374d30d6 |
|
MD5 | 317cdb8404145d4c4aced751a9372704 |
|
BLAKE2b-256 | 98ded4712434eede14d5be79cd67f8316fd88b15a2b2ea7f6a2fdade3c07cc00 |