Apache Spark Python API
项目描述
Apache Spark
Spark是一个用于大规模数据处理的一体化分析引擎。它提供了Scala、Java、Python和R的高级API,以及一个支持数据分析通用计算图的优化引擎。它还支持包括Spark SQL(用于SQL和DataFrame)、Spark上的pandas API(用于pandas工作负载)、MLlib(用于机器学习)、GraphX(用于图处理)和Structured Streaming(用于流处理)在内的丰富的高级工具集。
在线文档
您可以在项目网页上找到最新的Spark文档,包括编程指南。
Python打包
此README文件仅包含与pip安装的PySpark相关的基本信息。此打包目前处于实验性阶段,未来版本可能发生变化(尽管我们将尽力保持兼容性)。使用PySpark需要Spark JAR文件,如果您是从源代码构建,请参阅"Building Spark"中的构建说明。
Spark的Python打包并不是为了替代所有其他用例。此Spark Python打包版本适用于与现有集群(无论是Spark独立集群、YARN还是Mesos)交互 - 但不包含设置您自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载Spark的完整版本。
注意:如果您与Spark独立集群一起使用此版本,必须确保版本(包括次要版本)匹配,否则您可能会遇到奇特的错误。
Python要求
PySpark的核心依赖于Py4J,但某些子包有其自己的额外要求,以支持某些功能(包括numpy、pandas和pyarrow)。有关生产环境的依赖项,请参阅依赖项,以及开发环境的dev/requirements.txt。