最近碰到一個(gè)客戶要用IaaS搭建Cloudera,本來還想這產(chǎn)品這么多年也應(yīng)該成熟了涌哲,安裝總歸三下五除二就能搞定吧胖缤,沒想到用習(xí)慣了HDInsight之后,再回去搞這個(gè)阀圾,還真有些不習(xí)慣草姻。而且CDH都已經(jīng)這么多年了,沒想到bug也還真是不少啊稍刀,Troubleshooting起來也費(fèi)勁。
搭建本身倒沒什么好說的,就是看著這么多步驟有點(diǎn)惆悵账月。
https://www.cloudera.com/documentation/enterprise/6/6.1/topics/install_cm_cdh.html
準(zhǔn)備集群综膀,關(guān)掉SELinux關(guān)掉防火墻,配好Host NTP局齿,大概有下面這么多步:
準(zhǔn)備完了開始安裝剧劝,又大概有這么多步,手動(dòng)驚恐抓歼。
這么多步驟不知道為什么不搞成一個(gè)wizard..照理很多都是可以腳本搞定的讥此,尤其是數(shù)據(jù)庫那塊,不知道為什么明明給了他數(shù)據(jù)庫信息谣妻,還要自己去創(chuàng)建數(shù)據(jù)庫給權(quán)限(一不小心還給錯(cuò)一個(gè)萄喳,troubleshooting了半年),此刻無比懷念一個(gè)命令下去然后去倒杯咖啡等安裝完成的HDInsight
好了總算完成了安裝蹋半,他們要Hive on Spark他巨,那么試一下吧,火速弄完TPC-DS的數(shù)據(jù)减江,開始倒到Hive表里染突,剛跑兩分鐘,OOM了辈灼。份企。我這可是64G內(nèi)存的機(jī)器啊。巡莹。一看默認(rèn)配置司志。。只給了Spark 1G榕莺,有點(diǎn)黑人懵圈俐芯。當(dāng)然這都是小問題~,改完之后總算成功跑起來了钉鸯。
數(shù)據(jù)每天導(dǎo)入怎么搞呢吧史,他們的習(xí)慣是Hue里面去建Oozie的Workflow. 好,三下五除二去Hue里配好一個(gè)sqoop任務(wù)的workflow開始跑起來唠雕。好了贸营,又報(bào)錯(cuò)了。
這個(gè)Error Message岩睁。钞脂。看了半天Error Log完全沒有任何有用的信息捕儒。冰啃。
最后搜了好久邓夕,居然是一個(gè)Bug
https://issues.cloudera.org/browse/HUE-8717
看完他的Fix目瞪狗呆,并不是我的配置有什么特殊阎毅,而是他的一段python代碼寫錯(cuò)了焚刚,Hue配置一個(gè)Sqoop的workflow不是一個(gè)基本的功能么,給我的感覺扇调,好像產(chǎn)品發(fā)布之前都沒測試這個(gè)矿咕。
好按照他的Fix來,要升級Hue到4.4狼钮,那么問題來了碳柱,怎么升
看到這個(gè)消息我的內(nèi)心是絕望的。熬芜。
怎么辦莲镣,只能按照這個(gè)bug上提供的Fix手動(dòng)workaround,好在并不繁瑣猛蔽。改完后大功告成啦剥悟。。
此刻無比懷念傻瓜安裝曼库,碰到問題可以開工單的HDInsight.