一个用于通过Spark访问企业数据存储(EDR)表的pandas DataFrame访问器。
项目描述
EDR Accessor - 使用Spark访问企业数据存储(EDR)的pandas扩展
EDR Accessor是一个自定义的pandas DataFrame访问器,简化了与Spark的交互,使得列出数据库、表、导入表以及写入Delta Lake表变得容易。
特性
- 列出所有Spark数据库和表
- 将Spark表导入pandas DataFrame
- 检索表行数
- 将pandas DataFrame写入Delta Lake表
安装
要安装EDR Accessor,只需使用pip
pip install edr-accessor
用法
安装后,您可以通过访问您的pandas DataFrame上的.edr
属性来使用此扩展。
import pandas as pd
import edr_accessor
# Create an empty DataFrame
df = pd.DataFrame()
# List all databases
databases = df.edr.list_databases()
# List all tables in a specific database
tables = df.edr.list_tables('my_database')
# Import a table from Spark
df.edr.import_table('my_table', database='my_database')
# Get row counts for tables in a database
row_counts = df.edr.table_rowcounts(database='my_database')
# Write DataFrame to a Delta Lake table
df.edr.to_delta_table('my_delta_table', 'my_container', 'my_storage_account')
要求
- Pandas
- PySpark
贡献
欢迎贡献!请随意提交拉取请求。
许可
本项目采用MIT许可 - 有关详细信息,请参阅LICENSE文件。
项目详情
下载文件
下载适合您平台文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
edr-accessor-0.1.7.tar.gz (5.5 kB 查看哈希值)
构建分布
edr_accessor-0.1.7-py3-none-any.whl (8.2 kB 查看哈希值)