跳转到主要内容

Delta Lake辅助方法

项目描述

Levi

Delta Lake辅助方法。无需Spark依赖。

安装

使用pip install levi安装最新版本。

Delta文件统计

delta_file_stats函数提供了Delta表中文件字节数的信息。示例用法

import levi
from deltalake import DeltaTable

dt = DeltaTable("some_folder/some_table")
levi.delta_file_sizes(dt)

# return value
{
    'num_files_<1mb': 345, 
    'num_files_1mb-500mb': 588,
    'num_files_500mb-1gb': 960,
    'num_files_1gb-2gb': 0, 
    'num_files_>2gb': 5
}

此输出显示有345个小文件,小于1mb的数据,以及5个大文件,大于2gb的数据。对Delta表进行查询时,合并小文件并分割大文件将是一个好主意,以提高查询速度。

在调用函数时,您可以指定边界以获取自定义结果

levi.delta_file_sizes(dt, ["<1mb", "1mb-200mb", "200mb-800mb", "800mb-2gb", ">2gb"])

跳过的统计

提供有关给定谓词集跳过的文件数和字节数的信息。

import levi

dt = DeltaTable("some_folder/some_table")
levi.skipped_stats(dt, filters=[('a_float', '=', 4.5)])

# return value
{
    'num_files': 2,
    'num_files_skipped': 1,
    'num_bytes_skipped': 996
}

此谓词将跳过1个文件和996字节数据。

您可以使用skipped_stats来确定跳过文件的百分比。您还可以使用此信息来判断是否应该Z排序您的数据或重新排列它以允许更好的文件跳过。

获取最新的Delta表版本

latest_version函数获取最新的Delta表版本号并返回它。

import levi
from deltalake import DeltaTable

dt = DeltaTable("some_folder/some_table")
levi.latest_version(dt)

# return value
2

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分发

levi-0.3.0.tar.gz (3.2 kB 查看哈希值)

上传时间 源代码

构建发行版

levi-0.3.0-py3-none-any.whl (3.7 kB 查看哈希值)

上传时间 Python 3

支持