使用Docker快速搭建Spark集群瀑梗。
創(chuàng)建Spark集群
-
首先在命令行下載該項(xiàng)目:
git clone https://github.com/gettyimages/docker-spark.git
-
在該目錄下旭等,輸入
compose up
:- image-20181103161607705
- 等待安裝冲甘,最后會(huì)提示W(wǎng)orker和master都準(zhǔn)備好了:
- image-20181103164306737
- 在瀏覽器中輸入
localhost:8080
绊起,出現(xiàn)如下界面写半,說(shuō)明配置成功:- image-20181103164209061
- 我們可以使用
docker ps -a
命令查看當(dāng)前運(yùn)行的容器:- image-20181103164801925
集群使用與作業(yè)提交
集群使用
- 首先進(jìn)入master的容器:
docker exec -it docker-spark_master_1 /bin/bash
- 注意吏恭,使用
exec
命令進(jìn)入容器時(shí)惠豺,在命令行輸入exit
不會(huì)退出容器辽故,使用attach
命令再次進(jìn)入 - image-20181103165057661
- 查看Spark和Hadoop的版本:
-
hadoop version
- image-20181103165310600
-
spark shell
- image-20181103165436488
- 使用
:quit
退出spark-shell徒仓。 - 同樣也可以查看python的版本,為3.5.3誊垢,已經(jīng)很新了掉弛。
-
作業(yè)提交
- 在配置
docker compose
時(shí),我們已經(jīng)將本地文件./data
掛載到容器中的/tmp/data
下喂走,因此殃饿,我們可以先在本地文件中放入需要文件,這里我放入了kmeans的文件:- image-20181103172448920
- 在master節(jié)點(diǎn)中查看該文件:
- image-20181103172541513
- 這已經(jīng)映射到了hdfs上芋肠,我們可以使用
hdfs dfs -cat
命令查看:- image-20181103172841438
- 這樣乎芳,我們就可以使用
spark-submit
運(yùn)行我們的程序 - 在瀏覽器中查看運(yùn)行的程序:
- image-20181103173314647