Apache Spark的Python Spark Connect客户端
项目描述
Apache Spark
Spark是一个用于大规模数据处理的一体化分析引擎。它提供了Scala、Java、Python和R的高级API,以及支持数据分析的通用计算图的优化引擎。它还支持丰富的更高层次工具,包括用于SQL和DataFrame的Spark SQL、Spark上用于pandas工作负载的pandas API、用于机器学习的MLlib、用于图处理的GraphX以及用于流处理的Structured Streaming。
在线文档
您可以在项目网页上找到最新的Spark文档,包括编程指南。
Python打包
此README文件仅包含与pip安装的PySpark相关的基本信息。此打包目前是实验性的,未来版本可能会有所变化(尽管我们将尽最大努力保持兼容性)。使用PySpark需要Spark JARs,如果您是从源代码构建,请参阅“构建Spark”部分的构建说明。
Spark的Python打包并不旨在取代所有其他用例。此版本的PySpark适合与现有集群(无论是Spark独立集群还是YARN)交互 - 但不包含设置您自己的独立Spark集群所需的所有工具。您可以从Apache Spark下载页面下载Spark的完整版本。
注意:如果您与Spark独立集群一起使用此软件,必须确保版本(包括次要版本)匹配,否则可能会遇到奇怪的错误。
Python需求
PySpark的核心依赖于Py4J,但某些子包有其自身额外需求以支持某些特性(包括numpy、pandas和pyarrow)。有关生产依赖项,请参阅依赖项,以及有关开发依赖项的dev/requirements.txt。
项目详情
关闭
pyspark_connect-4.0.0.dev2.tar.gz的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 25a8f9f8851baf2cd0f7469809c512f8bb0cb854462c206adbce8f74b6e11379 |
|
MD5 | 8f04b174eb12082f9eb5103b3f1af09e |
|
BLAKE2b-256 | 56823fe0241a68854b8efd84449850924b8d5e29c90dfff65a27ea15494be0fe |