CDH上的Apache Zeppelin

1. 导入Cloudera QuickStart Docker镜像

Cloudera 已经正式在他们的容器中提供了 CDH Docker Hub。请查看 此指南页面 以获取更多信息。

您可以通过从Cloudera Docker Hub拉取来导入Docker镜像。

docker pull cloudera/quickstart:latest

2. 运行docker

docker run -it \
 -p 80:80 \
 -p 4040:4040 \
 -p 8020:8020 \
 -p 8022:8022 \
 -p 8030:8030 \
 -p 8032:8032 \
 -p 8033:8033 \
 -p 8040:8040 \
 -p 8042:8042 \
 -p 8088:8088 \
 -p 8480:8480 \
 -p 8485:8485 \
 -p 8888:8888 \
 -p 9083:9083 \
 -p 10020:10020 \
 -p 10033:10033 \
 -p 18088:18088 \
 -p 19888:19888 \
 -p 25000:25000 \
 -p 25010:25010 \
 -p 25020:25020 \
 -p 50010:50010 \
 -p 50020:50020 \
 -p 50070:50070 \
 -p 50075:50075 \
 -h quickstart.cloudera --privileged=true \
 agitated_payne_backup /usr/bin/docker-quickstart;

3. 验证正在运行的CDH

要验证应用程序是否正常运行,请检查HDFS的Web UI在http://:50070/和YARN在http://:8088/cluster

4. 在Zeppelin中配置Spark解释器

将以下配置设置为conf/zeppelin-env.sh

export HADOOP_CONF_DIR=[your_hadoop_conf_path]
export SPARK_HOME=[your_spark_home_path]

HADOOP_CONF_DIR(Hadoop配置路径)在/scripts/docker/spark-cluster-managers/cdh/hdfs_conf中定义。

不要忘记在Zeppelin的解释器设置页面中将Spark的spark.master设置为yarn-client,如下所示。

5. 使用Spark解释器运行Zeppelin

在Zeppelin中使用Spark解释器运行单个段落后,


浏览 http://:8088/cluster/apps 以检查 Zeppelin 应用程序是否运行良好。