围绕云服务提供商的简单包装过程,用于运行Apache Spark的RAPIDS加速器工具。
项目描述
spark-rapids-user-tools
用户工具,帮助Apache Spark的RAPIDS加速器的采用、安装、执行和调整。
包装器在以下方面改进了最终用户体验:
- 资格:教育CPU客户关于Apache Spark的RAPIDS加速器的成本节约和加速潜力。输出显示了一组推荐用于RAPIDS加速器的Apache Spark应用程序列表,包括估算的节约和加速。
- 调整:根据初始作业运行利用Spark事件日志调整RAPIDS加速器的Apache Spark配置。输出显示了推荐的每个应用程序的RAPIDS加速器Apache Spark配置设置。
- 诊断:运行诊断函数以验证RAPIDS加速器的Apache Spark环境与Dataproc,确保集群健康且准备好运行Spark作业。
- 预测:预测在GPU上使用Spark RAPIDS运行Spark应用程序的速度提升。
- 训练:训练一个模型来预测Spark作业在RAPIDS加速器上的性能。输出显示的模型文件可以用来预测Spark作业的性能。
入门
设置一个Python环境,版本介于3.8到3.11之间
-
在虚拟环境中运行项目。注意,.venv是创建用于放置虚拟环境的目录,如果您想要不同的位置,请进行修改。
$ python -m venv .venv $ source .venv/bin/activate
-
安装spark-rapids-user-tools
-
使用发布包。
$ pip install spark-rapids-user-tools
-
从源代码安装。
$ pip install -e .
注意
- 要安装运行单元测试所需的依赖项,请使用可选的
test
参数:pip install -e '.[test]'
- 要安装QualX训练所需的依赖项,请使用可选的
qualx
参数pip install -e '.[qualx]'
- 要安装运行单元测试所需的依赖项,请使用可选的
-
使用从仓库构建的wheel包(请参阅下面的构建步骤)。
$ pip install <wheel-file>
-
-
如果您计划运行工具包装器,请确保已安装CSP SDK。
从源代码构建
设置一个与上面步骤类似的Python环境。
-
创建一个虚拟环境。注意,.venv是创建用于放置虚拟环境的目录,如果您想要不同的位置,请进行修改。
$ python -m venv .venv $ source .venv/bin/activate
-
运行提供的构建脚本来编译项目。
$> ./build.sh
-
胖模式:类似于Java中的
fat jar
,这种模式解决了当无法通过Web访问下载具有Url路径(http/https)的资源时的问题。
该命令构建工具jar文件,下载必要的依赖项,并将它们与源代码一起打包成一个单独的'wheel'文件。$> ./build.sh fat
日志配置
核心工具项目使用Log4j进行日志记录。默认日志级别设置为INFO。您可以在位于src/spark_rapids_pytools/resources/dev/
目录的log4j.properties
文件中配置日志设置。这适用于您克隆项目并从源代码构建项目时。要更改日志级别,请修改log4j.rootLogger
属性。可能的级别包括DEBUG
、INFO
、WARN
、ERROR
。
使用方法和支持的平台
有关如何使用工具和平台的具体信息,请参阅spark-rapids-user-tools指南。
有关如何使用QualX工具进行预测和训练的具体信息,请参阅qualx指南。
新增功能
有关我们最新的更改,请参阅CHANGELOG.md。
项目详情
spark_rapids_user_tools-24.8.2-282_9613aa1-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8d1e011f6535b06f3e1f5e8592e831631b3db940d564e6c4147f4e72e1a5a73c |
|
MD5 | fb7b5eb15536cde08d31fcd53c4776af |
|
BLAKE2b-256 | f5916f4b95880c24ac5c8a68d4e0f7e9c179b57004deaf8f3578bce7d1aa4c49 |