Hadoop: 命令行迷你集群

目的

使用CLI MiniCluster,用户只需一条命令即可轻松启动和停止单节点Hadoop集群,无需设置任何环境变量或管理配置文件。CLI MiniCluster会同时启动YARN/MapReduceHDFS集群。

这对于用户希望快速实验真实Hadoop集群或测试依赖重要Hadoop功能的非Java程序的情况非常有用。

Hadoop 压缩包

您应该能够从发布版本中获取Hadoop压缩包。此外,您也可以直接从源代码创建压缩包:

$ mvn clean install -DskipTests
$ mvn package -Pdist -Dtar -DskipTests -Dmaven.javadoc.skip

注意: 您需要安装 protoc 2.5.0

该压缩包应位于hadoop-dist/target/目录中。

运行MiniCluster

在解压后的tarball根目录中,您可以使用以下命令启动CLI MiniCluster:

$ bin/mapred minicluster -rmport RM_PORT -jhsport JHS_PORT

在上面的示例命令中,RM_PORTJHS_PORT应替换为用户选择的这些端口号。如果未指定,将使用随机空闲端口。

用户可以使用一系列命令行参数来控制启动哪些服务,以及传递其他配置属性。可用的命令行参数:

$ -D <property=value>    Options to pass into configuration object
$ -datanodes <arg>       How many datanodes to start (default 1)
$ -format                Format the DFS (default false)
$ -help                  Prints option help.
$ -jhsport <arg>         JobHistoryServer port (default 0--we choose)
$ -namenode <arg>        URL of the namenode (default is either the DFS
$                        cluster or a temporary dir)
$ -nnport <arg>          NameNode port (default 0--we choose)
$ -nnhttpport <arg>      NameNode HTTP port (default 0--we choose)
$ -nodemanagers <arg>    How many nodemanagers to start (default 1)
$ -nodfs                 Don't start a mini DFS cluster
$ -nomr                  Don't start a mini MR cluster
$ -rmport <arg>          ResourceManager port (default 0--we choose)
$ -writeConfig <path>    Save configuration to this XML file.
$ -writeDetails <path>   Write basic information to this JSON file.

要显示完整的可用参数列表,用户可以向上述命令传递-help参数。