跳转到主要内容

Apache Spark的Python Spark Connect客户端

项目描述

Apache Spark

Spark是一个用于大规模数据处理的一体化分析引擎。它提供了Scala、Java、Python和R的高级API,以及支持数据分析的通用计算图的优化引擎。它还支持丰富的更高层次工具,包括用于SQL和DataFrame的Spark SQL、Spark上用于pandas工作负载的pandas API、用于机器学习的MLlib、用于图处理的GraphX以及用于流处理的Structured Streaming。

https://spark.apache.ac.cn/

在线文档

您可以在项目网页上找到最新的Spark文档,包括编程指南。

Python打包

此README文件仅包含与pip安装的PySpark相关的基本信息。此打包目前是实验性的,未来版本可能会有所变化(尽管我们将尽最大努力保持兼容性)。使用PySpark需要Spark JARs,如果您是从源代码构建,请参阅“构建Spark”部分的构建说明。

Spark的Python打包并不旨在取代所有其他用例。此版本的PySpark适合与现有集群(无论是Spark独立集群还是YARN)交互 - 但不包含设置您自己的独立Spark集群所需的所有工具。您可以从Apache Spark下载页面下载Spark的完整版本。

注意:如果您与Spark独立集群一起使用此软件,必须确保版本(包括次要版本)匹配,否则可能会遇到奇怪的错误。

Python需求

PySpark的核心依赖于Py4J,但某些子包有其自身额外需求以支持某些特性(包括numpy、pandas和pyarrow)。有关生产依赖项,请参阅依赖项,以及有关开发依赖项的dev/requirements.txt

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分发

pyspark_connect-4.0.0.dev2.tar.gz (1.4 MB 查看哈希)

上传时间

由以下赞助

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页