場(chǎng)景
linux環(huán)境客戶端安裝:將flink安裝到一臺(tái)linux機(jī)器上作為客戶端。任務(wù)提交時(shí),將flink任務(wù)提交到y(tǒng)arn集群進(jìn)行運(yùn)行竭恬。
安裝過(guò)程
flink下載
下載地址 https://flink.apache.org/downloads.html
目前采用1.10版本脉顿,scala 版本2.11,顧直接在linux下載拔第,解壓咕村。用戶:test
cd /home/test
wget http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.10.0/flink-1.10.0-bin-scala_2.11.tgz
tar -xvf flink-1.10.0-bin-scala_2.11.tgz
與hadoop依賴
flink-1.10版本中默認(rèn)情況下是沒(méi)有集成hadoop的,官網(wǎng)給的原因希望用戶自己去集成hadoop蚊俺、hbase等等懈涛。這樣flink本身就減少Jar包依賴產(chǎn)生的沖突。依賴沖突交給用戶來(lái)解決泳猬。官網(wǎng)給出flink與hadoop集成的兩種方式批钠,
Adding Hadoop Classpaths
翻譯過(guò)來(lái)就是,在flink啟動(dòng)時(shí)得封,將linux機(jī)器上hadoop的jar包添加到flink classpath上埋心。
export HADOOP_CLASSPATH=`hadoop classpath`
這種方式是flink推薦方式,但容易引發(fā)jar包沖突的問(wèn)題忙上。原因hadoop依賴中有太多太多的包了拷呆,很容易出現(xiàn)問(wèn)題。
將maven-shaded包放入 flink lib下疫粥。
此種方式能夠最大限度避免jar包沖突帶來(lái)的問(wèn)題茬斧。目前flink-1.5.1(blink)之前好像都是采用這種方式。flink官網(wǎng)目前只支持hadoop 幾個(gè)版本梗逮,所以如果不在flink官網(wǎng)發(fā)布的hadoop-shaded包的話项秉,那你只能自己下載源碼,maven編譯打包了库糠。本次安裝采用此種方式伙狐。使用的hadoop版本2.6.5涮毫。直接下載https://repo.maven.apache.org/maven2/org/apache/flink/flink-shaded-hadoop-2-uber/2.6.5-10.0/flink-shaded-hadoop-2-uber-2.6.5-10.0.jar
測(cè)試成功標(biāo)志
未添加hadoop依賴
bin/flink run -h 顯示
"run" action options: 。贷屎。罢防。
Options for executor mode:。唉侄。咒吐。
Options for default mode:。属划。恬叹。
添加hadoop依賴
bin/flink run -h??顯示
"run" action options: 。同眯。绽昼。
Options for yarn-cluster mode:。须蜗。硅确。
Options for executor mode:。明肮。菱农。
Options for default mode:。柿估。循未。
可以看到多了一個(gè)yarn-cluster mode。
執(zhí)行測(cè)試用例:./bin/flink run -e yarn-per-job ./examples/batch/WordCount.jar