微钻 · PyPI · Python 包索引

使用PySpark的简单Apache Drill替代方案

这些详情尚未由PyPI验证

项目链接

主页

项目描述

使用PySpark的简单Apache Drill替代方案，受PyDAL启发

设置

运行终端命令 pip install microdrill

依赖项

PySpark已在Spark 1.6上进行了测试

用法

定义查询Parquet表

ParquetTable(table_name, schema_index_file=file_name)

table_name: 表引用名称。
file_name: 用于搜索表模式的文件名。

使用Parquet DAL

ParquetDAL(file_uri, sc)

file_uri: 它可以是文件路径或hdfs://或其他位置
sc: Spark Context (https://spark.apache.ac.cn/docs/1.6.0/api/python/pyspark.html#pyspark.SparkContext)

在表中连接

parquet_conn = ParquetDAL(file_uri, sc)
parquet_table = ParquetTable(table_name, schema_index_file=file_name)
parquet_conn.set_table(parquet_table)

查询

返回表对象

parquet_conn(table_name)

返回字段对象

parquet_conn(table_name)(field_name)

基本查询

parquet_conn.select(field_object, [field_object2, ...]).where(field_object=value)
parquet_conn.select(field_object1, field_object2).where(field_object1==value1 & ~field_object2==value2)
parquet_conn.select(field_object1, field_object2).where(field_object1!=value1 | field_object1.regexp(reg_exp))

按组分组

parquet_conn.groupby(field_object1, [field_object2, ...])

按顺序排列

parquet_conn.orderby(field_object1, [field_object2, ...])

parquet_conn.orderby(~field_object)

限制

parquet_conn.limit(number)

执行

df = parquet_conn.execute() execute() 返回一个 PySpark DataFrame.

从模式返回字段名

parquet_conn(table_name).schema()

开发者

安装最新的 JDK 并在终端运行 make setup

项目详情

这些详情尚未由PyPI验证

项目链接

主页

发布历史发布通知 | RSS 源

本版本

0.0.3

2016 年 3 月 1 日

0.0.2

2016 年 2 月 25 日

0.0.1

2016 年 2 月 24 日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分布

microdrill-0.0.3.tar.gz (7.9 kB 查看散列)

上传时间 2016 年 3 月 1 日 源

散列 for microdrill-0.0.3.tar.gz

microdrill-0.0.3.tar.gz 的散列
算法	散列摘要
SHA256	`0ffa274b046a602225909f4cdaa7943be64f7dc99217583d37456468d303ca73`
MD5	`2319b58847b3cf34879b97ab4d88c7dd`
BLAKE2b-256	`4e9412aab5729bafac62bc3f036eaf60ae2a6e7be7dcbdd243817ee463e1d27a`

microdrill 0.0.3

导航

已验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

设置

依赖项

用法

定义查询Parquet表

使用Parquet DAL

在表中连接

查询

返回表对象

返回字段对象

基本查询

按组分组

按顺序排列

限制

执行

从模式返回字段名

开发者

项目详情

已验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS 源

下载文件

源分布

microdrill 0.0.3

导航

已验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

设置

依赖项

用法

定义查询Parquet表

使用Parquet DAL

在表中连接

查询

返回表对象

返回字段对象

基本查询

按组分组

按顺序排列

限制

执行

从模式返回字段名

开发者

项目详情

已验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS 源

下载文件

源分布

发布历史发布通知 | RSS 源