使用docker搭建分布式環(huán)境
今天開始力麸,準(zhǔn)備學(xué)習(xí)大數(shù)據(jù)分析,參考的教材是O‘REILLY的《Hadoop數(shù)據(jù)分析》,算是一本比較新的書吧!我自己也屬于剛?cè)腴T,寫筆記除了分享,更重要的是可以提高學(xué)習(xí)的效果3缟字逗!
這里我使用的是docker而不是書上推薦的在vmware上安裝虛擬機,至于為什么拋棄vm而選擇docker宅广,當(dāng)然是docker更加輕量級更加好用葫掉,docker可以說是當(dāng)今虛擬化技術(shù)的潮流,當(dāng)然想更具體的優(yōu)點可以去查閱相關(guān)資料跟狱,這里就不再累述俭厚。
下面先說明一下我的環(huán)境配置:
- 系統(tǒng):Manjaro Linux
- Docker version:18.09.2-ce
-
安裝docker(Arch 真爽啊):
sudo pacman -S docker
-
更換docker源(使用ustc源):
sudo gedit /etc/docker/daemon.json
然后把下面的內(nèi)容加入驶臊,即可:
{
"registry-mirrors": ["https://docker.mirrors.ustc.edu.cn"]
}
-
把自己加入
docker
用戶組挪挤,這樣就運行docker時就不用加sudo
了:
sudo groupadd docker
sudo usermod -aG docker $USER
然后重啟即可。
搭建分布式環(huán)境
書中搭建的環(huán)境是偽分布式的关翎,也就是單機扛门,但是為了將來更深入地學(xué)習(xí)云計算和大數(shù)據(jù),我在這里搭建的是全分布式的環(huán)境纵寝,搭建方法非常簡單论寨,得益于一個大佬在docker hub上發(fā)布了已經(jīng)配置好的開發(fā)環(huán)境,使我們不用被繁瑣的配置步驟所困擾,很快地學(xué)習(xí)Hadoop的核心部分葬凳。
首先绰垂,我們先到docker hub上拉去相關(guān)的鏡像,你也可以自己一步步拉火焰,從操作系統(tǒng)到Hadoop再到j(luò)dk一個個地拉劲装,然后自己配置,如果閑麻煩(like me)荐健,直接拉大佬已經(jīng)配置好的鏡像就行了酱畅,方法很簡單,運行命令:
sudo docker pull kiwenlau/hadoop:1.0
然后克隆大佬的配置庫:
git clone https://github.com/kiwenlau/hadoop-cluster-docker
這是我用來測試環(huán)境江场,我們的目的是學(xué)習(xí)纺酸,所以我后面會再自己寫hadoop的配置熟悉一下。
創(chuàng)建Hadoop網(wǎng)絡(luò):
sudo docker network create --driver=bridge hadoop
這個很重要址否,使用橋接網(wǎng)絡(luò)我們才可以模擬分布式集群餐蔬。
下面先熱一下身:
啟動docker容器:
cd hadoop-cluster-docker
sudo ./start-container.sh
通過結(jié)果你也可以知道,這個環(huán)境包含了1個
master
佑附,2個slaver
樊诺,對于我們學(xué)習(xí)完全夠用了。
這是我們會進(jìn)如master
的根目錄下音同,運行自帶的WordCount程序熱身一下先吧:
./start-hadoop.sh
./run-wordcount.sh
以上就是這篇筆記的內(nèi)容词爬,后續(xù)會繼續(xù)深入學(xué)習(xí),待更权均。顿膨。。
寫在最后
今天開始會開始學(xué)習(xí)Hadoop數(shù)據(jù)分析叽赊,在搭好環(huán)境之后對docker更加喜愛了恋沃,如果將來有機會,也會寫一些docker的文章必指。目前先啃好這本書囊咏,上面的內(nèi)容基本與書上無關(guān),所以后面就是Hadoop實踐部分了塔橡。開學(xué)了梅割,希望可以保持一月一更,甚至一月多更葛家。