跳转到主要内容

围绕云服务提供商的简单包装过程,用于运行Apache Spark的RAPIDS加速器工具。

项目描述

spark-rapids-user-tools

用户工具,帮助Apache Spark的RAPIDS加速器的采用、安装、执行和调整。

包装器在以下方面改进了最终用户体验:

  1. 资格:教育CPU客户关于Apache Spark的RAPIDS加速器的成本节约和加速潜力。输出显示了一组推荐用于RAPIDS加速器的Apache Spark应用程序列表,包括估算的节约和加速。
  2. 调整:根据初始作业运行利用Spark事件日志调整RAPIDS加速器的Apache Spark配置。输出显示了推荐的每个应用程序的RAPIDS加速器Apache Spark配置设置。
  3. 诊断:运行诊断函数以验证RAPIDS加速器的Apache Spark环境与Dataproc,确保集群健康且准备好运行Spark作业。
  4. 预测:预测在GPU上使用Spark RAPIDS运行Spark应用程序的速度提升。
  5. 训练:训练一个模型来预测Spark作业在RAPIDS加速器上的性能。输出显示的模型文件可以用来预测Spark作业的性能。

入门

设置一个Python环境,版本介于3.8到3.11之间

  1. 在虚拟环境中运行项目。注意,.venv是创建用于放置虚拟环境的目录,如果您想要不同的位置,请进行修改。

    $ python -m venv .venv
    $ source .venv/bin/activate
    
  2. 安装spark-rapids-user-tools

    • 使用发布包。

      $ pip install spark-rapids-user-tools
      
    • 从源代码安装。

      $ pip install -e .
      

      注意

      • 要安装运行单元测试所需的依赖项,请使用可选的test参数:pip install -e '.[test]'
      • 要安装QualX训练所需的依赖项,请使用可选的qualx参数 pip install -e '.[qualx]'
    • 使用从仓库构建的wheel包(请参阅下面的构建步骤)。

      $ pip install <wheel-file>
      
  3. 如果您计划运行工具包装器,请确保已安装CSP SDK。

从源代码构建

设置一个与上面步骤类似的Python环境。

  1. 创建一个虚拟环境。注意,.venv是创建用于放置虚拟环境的目录,如果您想要不同的位置,请进行修改。

    $ python -m venv .venv
    $ source .venv/bin/activate
    
  2. 运行提供的构建脚本来编译项目。

    $> ./build.sh
    
  3. 胖模式:类似于Java中的fat jar,这种模式解决了当无法通过Web访问下载具有Url路径(http/https)的资源时的问题。
    该命令构建工具jar文件,下载必要的依赖项,并将它们与源代码一起打包成一个单独的'wheel'文件。

    $> ./build.sh fat
    

日志配置

核心工具项目使用Log4j进行日志记录。默认日志级别设置为INFO。您可以在位于src/spark_rapids_pytools/resources/dev/目录的log4j.properties文件中配置日志设置。这适用于您克隆项目并从源代码构建项目时。要更改日志级别,请修改log4j.rootLogger属性。可能的级别包括DEBUGINFOWARNERROR

使用方法和支持的平台

有关如何使用工具和平台的具体信息,请参阅spark-rapids-user-tools指南

有关如何使用QualX工具进行预测和训练的具体信息,请参阅qualx指南

新增功能

有关我们最新的更改,请参阅CHANGELOG.md

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分布

此版本没有可用的源代码分布文件。请参阅有关生成分布存档的教程。

构建分布

由...