跳转到主要内容

未提供项目描述

项目描述

文档可在Read the Docs找到

Build Status

目标

HOD是一组脚本,用于从其他资源管理系统(例如Torque/PBS)内部启动服务,例如Hadoop集群。因此,它允许传统的高性能计算系统用户尝试Hadoop或在没有专用设置的情况下将其用作生产设置。

Hadoop不是唯一支持的软件。HOD还可以创建HBase数据库、IPython笔记本并设置Spark环境。

优点

有两个主要优点

  1. 用户可以在传统的批处理集群上运行作业。这对于使用框架但不需要“大数据”集群的小到中等Hadoop作业来说很好。在这个阶段,并行文件系统的性能优势超过了类似HDFS风格的文件系统的“无共享”架构。

  2. 来自不同组的使用者可以运行他们喜欢的任何版本的Hadoop。这消除了升级运行Yarn集群的需要,并希望所有用户的作业都是向后兼容的。

历史

曾经,Hadoop附带自己的HOD(Hadoop On Demand),但该项目未得到维护,且仅支持未经调优的Hadoop。Hadoop 1.0.0版本中附带的那部分HOD代码至少存在bug。人们尝试将其部署到UGent HPC基础设施上,虽然成功实现了Hadoop集群,但扩展其功能却非常困难。当时(2012年4月),hanythingondemand开始投入使用,以便更好地维护并支持更多默认功能。例如,HBase是基本需求之一。因此,Hadoop on Demand变成了‘Hanything’。除了缩写‘HOD’之外,Hadoop On Demand的其余部分都没有被重用。

有关Hadoop On Demand历史的更多内容,请参阅这篇关于Yarn(PDF)的论文的第2节。

它是如何工作的?

hanythingondemand通过启动一个MPI作业来工作,该作业使用预留节点作为集群中的集群。然后在这些节点上启动各种Hadoop服务。用户可以在启动时启动一个作业(批量模式)或登录到工作节点(使用hod connect命令),在那里可以与其服务进行交互。

先决条件

其余的要求可以使用EasyBuild安装。

  • Python和各种库。

  • mpi4py

  • 例如,在fedora上 yum install -y mpi4py-mpich2

  • 如果您自己构建,您可能需要设置$MPICC环境变量。

  • vsc-base - 用于命令行解析。

  • vsc-mympirun - 用于设置MPI作业。

  • pbs_python - 用于与PBS(即Torque)服务器交互。

  • netifaces

  • netaddr

  • Java

  • Oracle JDK或OpenJDK - 都可以使用Easybuild安装

  • Hadoop二进制文件

  • 例如,用于测试HOD的Cloudera发行版版本

示例用例

创建HOD集群

# submits a job to start a Hadoop cluster on 16 nodes
$ hod create --dist Hadoop-2.3.0-cdh5.0 -n16 --label my-cluster

### Connect to your new cluster.
$ hod connect my-cluster

### Then, in your session, you can run your hadoop jobs:
$ hadoop jar somejob.jar SomeClass arg1 arg2

“设置后即可忘记”的批量作业

# Run a batch job on 1 node:
$ hod batch --dist Hadoop-2.3.0-cdh5.0 --label my-cluster --script=my-script.sh

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分发

hanythingondemand-3.2.3.tar.gz (50.5 kB 查看哈希值)

上传时间 源代码

支持者: