Apache Spark的Python Spark Connect客户端

这些详情尚未通过PyPI验证

项目链接

主页

项目描述

Apache Spark

Spark是一个用于大规模数据处理的一体化分析引擎。它提供了Scala、Java、Python和R的高级API，以及支持数据分析的通用计算图的优化引擎。它还支持丰富的更高层次工具，包括用于SQL和DataFrame的Spark SQL、Spark上用于pandas工作负载的pandas API、用于机器学习的MLlib、用于图处理的GraphX以及用于流处理的Structured Streaming。

https://spark.apache.ac.cn/

在线文档

您可以在项目网页上找到最新的Spark文档，包括编程指南。

Python打包

此README文件仅包含与pip安装的PySpark相关的基本信息。此打包目前是实验性的，未来版本可能会有所变化（尽管我们将尽最大努力保持兼容性）。使用PySpark需要Spark JARs，如果您是从源代码构建，请参阅“构建Spark”部分的构建说明。

Spark的Python打包并不旨在取代所有其他用例。此版本的PySpark适合与现有集群（无论是Spark独立集群还是YARN）交互 - 但不包含设置您自己的独立Spark集群所需的所有工具。您可以从Apache Spark下载页面下载Spark的完整版本。

注意：如果您与Spark独立集群一起使用此软件，必须确保版本（包括次要版本）匹配，否则可能会遇到奇怪的错误。

Python需求

PySpark的核心依赖于Py4J，但某些子包有其自身额外需求以支持某些特性（包括numpy、pandas和pyarrow）。有关生产依赖项，请参阅依赖项，以及有关开发依赖项的dev/requirements.txt。

项目详情

这些详情尚未通过PyPI验证

项目链接

主页

发布历史发布通知 | RSS源

此版本

4.0.0.dev2 预发布

2024年9月22日

4.0.0.dev1 预发布

2024年6月3日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解有关安装包的更多信息。

源分发

pyspark_connect-4.0.0.dev2.tar.gz (1.4 MB 查看哈希)

上传时间 2024年9月22日 源

pyspark_connect-4.0.0.dev2.tar.gz的哈希

pyspark_connect-4.0.0.dev2.tar.gz的哈希
算法	哈希摘要
SHA256	`25a8f9f8851baf2cd0f7469809c512f8bb0cb854462c206adbce8f74b6e11379`
MD5	`8f04b174eb12082f9eb5103b3f1af09e`
BLAKE2b-256	`56823fe0241a68854b8efd84449850924b8d5e29c90dfff65a27ea15494be0fe`

PySpark Connect 4.0.0.dev2

导航

已验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

Apache Spark

在线文档

Python打包

Python需求

项目详情

已验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源分发

PySpark Connect 4.0.0.dev2

导航

已验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

Apache Spark

在线文档

Python打包

Python需求

项目详情

已验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分发

发布历史发布通知 | RSS源