環(huán)境準(zhǔn)備
- git
- maven
- jdk 8u51及以上
- flink1.9源碼
git clone https://github.com/apache/flink.git
編譯
Flink針對不同Hadoop版本編譯方法不一樣桨啃,請根據(jù)自己的情況自行選擇
已預(yù)編譯好的Hadoop版本
Hadoop 2.4.1不瓶、2.6.5、 2.7.5枚粘、 2.8.3四個版本Flink已經(jīng)提供了預(yù)編譯好的版本馅闽,可自行下載使用,如果自己想編譯這四個版本馍迄,則參考如下命令操作:
# cd 到 flink主目錄
git checkout release-1.9.3
mvn clean install -DskipTests -Dmaven.javadoc.skip=true -Dhadoop.version=2.7.6 -Pfast -Pinclude-hadoop
對于其他Hadoop2.x版本
對于其他Hadoop2.x版本福也,包括Hadoop 2.4.1, 2.6.5, 2.7.5, 2.8.3的CDH、HDP等版本攀圈,由于flink依賴flink-shaded暴凑,而各大maven倉庫并沒有編譯對應(yīng)的版本,所以事先先編譯安裝flink-shaded赘来,再編譯flink现喳。
- 編譯?ink-shaded
git clone https://github.com/apache/flink-shaded.git
cd flink-shaded
git checkout release-7.0
mvn clean install -DskipTests -Dhadoop.version=2.9.2
mvn處理完成之后,對應(yīng)的?ink-shaded就安裝在本地的maven倉庫撕捍。
- 編譯Flink
cd flink
git checkout release-1.9.3
mvn clean install -DskipTests -Dmaven.javadoc.skip=true -Dhadoop.version=2.9.2 -
Pfast -Pinclude-hadoop
編譯完之后在flink/flink-dist/target/flink-1.9.3-bin
留意點
- 使用Scala哪個版本開發(fā)Flink應(yīng)用拿穴,就基于Scala哪個版本來編譯Flink(2.11/2.12)泣洞,如果你只想使用Flink的JavaAPI忧风,則不用選擇scala版本(-Dscala-2.11或者-Dscala-2.12來指定Scala版本)。
- 編譯針對HDP球凰、CDH狮腿、MapR的Hadoop版本可使用-Pvendor-repos
- -Pinclude-hadoop會自動把?ink-shaded-hadoop包打包到lib目錄下
Flink自編譯的必要性
例如CDH6.2為例腿宰,它的Hadoop版本是3.x.x,是不是非要專門進(jìn)行編譯才能使用呢缘厢?答案是否定的吃度。
- 如果使用的Hadoop是Hadoop2.4.1,2.6.5,2.7.5,2.8.3 => 直接使用預(yù)編譯的Hadoop版本即可
- 如果使用的Hadoop是2.x,但不是2.4.1,2.6.5,2.7.5,2.8.3 => 直接使用預(yù)編譯的Hadoop版本即可贴硫,也可以自己編譯
- 如果使用的是Hadoop3.x椿每,但不會在Flink編程中使用Hadoop3特有的API => 直接使用預(yù)編譯的Hadoop版本即可
- 如果使用的是Hadoop3.x,且需要使用Hadoop3特有的API => 需要自己編譯
如果自己編譯應(yīng)該編譯哪個版本呢英遭?以下是blink開發(fā)人員給出的答案:
- blink內(nèi)部版本使用hadoop3.0版本的client间护,從而能使用到一些yarn3.x才有功能(比如GPU調(diào)度)。
- 如果使用hadoop3.0特有的api后挖诸,會導(dǎo)致?ink在低版本的hadoop集群中不能正常運(yùn)行汁尺。
- 目前大部分yarn用戶還是以hadoop2.6為主,所以目前blink開源版對于hadoop的依賴是2.6及以上版本的多律。
- 如果?ink用戶不需要hadoop3.0特有的api的話痴突,編譯?ink時用hadoop2.6版本即可。
- 我們已經(jīng)測試過基于hadoop2.6.5的?ink能夠正常運(yùn)行在hadoop3.x的集群中狼荞。