未提供项目描述
项目描述
文档可在Read the Docs找到
目标
HOD是一组脚本,用于从其他资源管理系统(例如Torque/PBS)内部启动服务,例如Hadoop集群。因此,它允许传统的高性能计算系统用户尝试Hadoop或在没有专用设置的情况下将其用作生产设置。
Hadoop不是唯一支持的软件。HOD还可以创建HBase数据库、IPython笔记本并设置Spark环境。
优点
有两个主要优点
用户可以在传统的批处理集群上运行作业。这对于使用框架但不需要“大数据”集群的小到中等Hadoop作业来说很好。在这个阶段,并行文件系统的性能优势超过了类似HDFS风格的文件系统的“无共享”架构。
来自不同组的使用者可以运行他们喜欢的任何版本的Hadoop。这消除了升级运行Yarn集群的需要,并希望所有用户的作业都是向后兼容的。
历史
曾经,Hadoop附带自己的HOD(Hadoop On Demand),但该项目未得到维护,且仅支持未经调优的Hadoop。Hadoop 1.0.0版本中附带的那部分HOD代码至少存在bug。人们尝试将其部署到UGent HPC基础设施上,虽然成功实现了Hadoop集群,但扩展其功能却非常困难。当时(2012年4月),hanythingondemand开始投入使用,以便更好地维护并支持更多默认功能。例如,HBase是基本需求之一。因此,Hadoop on Demand变成了‘Hanything’。除了缩写‘HOD’之外,Hadoop On Demand的其余部分都没有被重用。
有关Hadoop On Demand历史的更多内容,请参阅这篇关于Yarn(PDF)的论文的第2节。
它是如何工作的?
hanythingondemand通过启动一个MPI作业来工作,该作业使用预留节点作为集群中的集群。然后在这些节点上启动各种Hadoop服务。用户可以在启动时启动一个作业(批量模式)或登录到工作节点(使用hod connect命令),在那里可以与其服务进行交互。
先决条件
其余的要求可以使用EasyBuild安装。
Python和各种库。
例如,在fedora上 yum install -y mpi4py-mpich2
如果您自己构建,您可能需要设置$MPICC环境变量。
vsc-base - 用于命令行解析。
vsc-mympirun - 用于设置MPI作业。
pbs_python - 用于与PBS(即Torque)服务器交互。
Java
Oracle JDK或OpenJDK - 都可以使用Easybuild安装
Hadoop二进制文件
例如,用于测试HOD的Cloudera发行版版本
示例用例
创建HOD集群
# submits a job to start a Hadoop cluster on 16 nodes
$ hod create --dist Hadoop-2.3.0-cdh5.0 -n16 --label my-cluster
### Connect to your new cluster.
$ hod connect my-cluster
### Then, in your session, you can run your hadoop jobs:
$ hadoop jar somejob.jar SomeClass arg1 arg2
“设置后即可忘记”的批量作业
# Run a batch job on 1 node:
$ hod batch --dist Hadoop-2.3.0-cdh5.0 --label my-cluster --script=my-script.sh
项目详情
hanythingondemand-3.2.3.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | e8bb176df45546e47e6abdfcb9cfd16f73369362368286cfe69d270710323c58 |
|
MD5 | 95fde884e1e0acd95961d01bd4e0327b |
|
BLAKE2b-256 | d155a23e364457529eb09e27f1761123b8ec7fa4bfe1a21ae7f35ba607db26fc |