跳转到主要内容

一个用于通过Spark访问企业数据存储(EDR)表的pandas DataFrame访问器。

项目描述

EDR Accessor - 使用Spark访问企业数据存储(EDR)的pandas扩展

EDR Accessor是一个自定义的pandas DataFrame访问器,简化了与Spark的交互,使得列出数据库、表、导入表以及写入Delta Lake表变得容易。

特性

  • 列出所有Spark数据库和表
  • 将Spark表导入pandas DataFrame
  • 检索表行数
  • 将pandas DataFrame写入Delta Lake表

安装

要安装EDR Accessor,只需使用pip

pip install edr-accessor

用法

安装后,您可以通过访问您的pandas DataFrame上的.edr属性来使用此扩展。

import pandas as pd
import edr_accessor

# Create an empty DataFrame
df = pd.DataFrame()

# List all databases
databases = df.edr.list_databases()

# List all tables in a specific database
tables = df.edr.list_tables('my_database')

# Import a table from Spark
df.edr.import_table('my_table', database='my_database')

# Get row counts for tables in a database
row_counts = df.edr.table_rowcounts(database='my_database')

# Write DataFrame to a Delta Lake table
df.edr.to_delta_table('my_delta_table', 'my_container', 'my_storage_account')

要求

  • Pandas
  • PySpark

贡献

欢迎贡献!请随意提交拉取请求。

许可

本项目采用MIT许可 - 有关详细信息,请参阅LICENSE文件。

项目详情


下载文件

下载适合您平台文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

edr-accessor-0.1.7.tar.gz (5.5 kB 查看哈希值)

上传时间:

构建分布

edr_accessor-0.1.7-py3-none-any.whl (8.2 kB 查看哈希值)

上传于 Python 3

由以下支持