Flink Sql on Hive 的生產(chǎn)遇到的坑以及優(yōu)化（持續(xù)更新 ...）

1粮宛、HiveSource-xxxx.xxxx's parallelism (200) is higher than the max parallelism (128). Please lower the parallelism or increase the max parallelism.

（1）報錯

這是sql-cli 連接hive,查一張表報的錯

[ERROR] Could not execute SQL statement. Reason:
org.apache.flink.runtime.JobException: Vertex Source: HiveSource-xxxx.xxxx's parallelism (200) is higher than the max parallelism (128). Please lower the parallelism or increase the max parallelism.

（2）解決

只需要改動flink包下的/conf包里sql-client-defaults.yaml這個文件里的max-parallelism改為300即可

execution:
  max-parallelism: 300

2懈万、flink sql讀取hive表時建議手動配置table.exec.hive.fallback-mapred-reader: true生效

（1）報錯

不管用sql-cli，還是把sql放在代碼里蹄葱，執(zhí)行以下sql都是下面的結(jié)果，同時報錯都是報Caused by: java.lang.IllegalArgumentException杜顺。

而我用Spark Sql跑下面的Sql都是正常的裁僧。

（1）First:
SELECT vid From table_A WHERE datekey = '20210112' AND event = 'XXX' AND vid = 'aaaaaa';   (**OK**)
SELECT vid From table_A WHERE datekey = '20210112' AND vid = 'aaaaaa';                     (**Error**)

（2）Second:
SELECT vid From table_B WHERE datekey = '20210112' AND event = 'YYY' AND vid = 'bbbbbb';   (**OK**)
SELECT vid From table_B WHERE datekey = '20210112' AND vid = 'bbbbbb';                     (**Error**)

報錯原文：

[ERROR] Could not execute SQL statement. Reason:
java.lang.RuntimeException: SplitFetcher thread 22 received unexpected exception while polling the records


java.lang.RuntimeException: One or more fetchers have encountered exception
  at org.apache.flink.connector.base.source.reader.fetcher.SplitFetcherManager.checkErrors(SplitFetcherManager.java:199)
  at org.apache.flink.connector.base.source.reader.SourceReaderBase.getNextFetch(SourceReaderBase.java:154)
  at org.apache.flink.connector.base.source.reader.SourceReaderBase.pollNext(SourceReaderBase.java:116)
  at org.apache.flink.streaming.api.operators.SourceOperator.emitNext(SourceOperator.java:273)
  at org.apache.flink.streaming.runtime.io.StreamTaskSourceInput.emitNext(StreamTaskSourceInput.java:67)
  at org.apache.flink.streaming.runtime.io.StreamOneInputProcessor.processInput(StreamOneInputProcessor.java:65)
  at org.apache.flink.streaming.runtime.tasks.StreamTask.processInput(StreamTask.java:395)
  at org.apache.flink.streaming.runtime.tasks.mailbox.MailboxProcessor.runMailboxLoop(MailboxProcessor.java:191)
  at org.apache.flink.streaming.runtime.tasks.StreamTask.runMailboxLoop(StreamTask.java:609)
  at org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:573)
  at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:755)
  at org.apache.flink.runtime.taskmanager.Task.run(Task.java:570)
  at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.RuntimeException: SplitFetcher thread 22 received unexpected exception while polling the records
  at org.apache.flink.connector.base.source.reader.fetcher.SplitFetcher.runOnce(SplitFetcher.java:146)
  at org.apache.flink.connector.base.source.reader.fetcher.SplitFetcher.run(SplitFetcher.java:101)
  at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
  at java.util.concurrent.FutureTask.run(FutureTask.java:266)
  at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
  at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
  ... 1 more
Caused by: java.lang.IllegalArgumentException
  at java.nio.Buffer.position(Buffer.java:244)
  at java.nio.HeapByteBuffer.get(HeapByteBuffer.java:153)
  at java.nio.ByteBuffer.get(ByteBuffer.java:715)
  at org.apache.flink.hive.shaded.parquet.io.api.Binary$ByteBufferBackedBinary.getBytes(Binary.java:422)
  at org.apache.flink.hive.shaded.formats.parquet.vector.reader.BytesColumnReader.readBatchFromDictionaryIds(BytesColumnReader.java:79)
  at org.apache.flink.hive.shaded.formats.parquet.vector.reader.BytesColumnReader.readBatchFromDictionaryIds(BytesColumnReader.java:33)
  at org.apache.flink.hive.shaded.formats.parquet.vector.reader.AbstractColumnReader.readToVector(AbstractColumnReader.java:199)
  at org.apache.flink.hive.shaded.formats.parquet.ParquetVectorizedInputFormat$ParquetReader.nextBatch(ParquetVectorizedInputFormat.java:359)
  at org.apache.flink.hive.shaded.formats.parquet.ParquetVectorizedInputFormat$ParquetReader.readBatch(ParquetVectorizedInputFormat.java:328)
  at org.apache.flink.connector.file.src.impl.FileSourceSplitReader.fetch(FileSourceSplitReader.java:67)
  at org.apache.flink.connector.base.source.reader.fetcher.FetchTask.run(FetchTask.java:56)
  at org.apache.flink.connector.base.source.reader.fetcher.SplitFetcher.runOnce(SplitFetcher.java:138)
  ... 6 more

（2）解決

昨天提交了一個issue：https://issues.apache.org/jira/browse/FLINK-20951个束，云邪大佬幫忙叫Rui Li大佬幫忙看了一下，需要配置table.exec.hive.fallback-mapred-reader: true聊疲。

我昨天翻遍了官網(wǎng)也看到了這個配置茬底，官方文檔說是默認(rèn)開啟的，所以還是建議手動將這個配置配置上获洲。官網(wǎng)的解釋是啟動這個配置是啟用hive表的向量化讀取阱表，當(dāng)Format是ORC 或者 Parquet類型，同時沒有hive的復(fù)雜類型贡珊。
官網(wǎng)鏈接：https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/hive/hive_read_write.html#vectorized-optimization-upon-read

a最爬、用sql-cli可以配置在flink包下的/conf包里sql-client-defaults.yaml這個文件里

configuration:
  table.exec.hive.fallback-mapred-reader: true

b、如果是在代碼里提交flink sql门岔，像下面這樣配置Configuration就好：

Configuration configuration = tableEnv.getConfig().getConfiguration();
configuration.setString("table.exec.hive.fallback-mapred-reader", "true");

3爱致、如果你的hive表的分區(qū)非常多，flink的默認(rèn)配置會幫你開啟很多的Taskmanager

（1）報錯

可以看到一下子給你分配1000寒随，當(dāng)時看到時候被嚇到了

image

（2）解決

翻了一下官網(wǎng)糠悯，原來是Flink將根據(jù)文件數(shù)和每個文件中的塊數(shù)為其Hive讀取器推斷最佳并行度，不過目前看起來并不是很良好妻往。

可以關(guān)閉這個配置然后根據(jù)自己任務(wù)進(jìn)行配置（這個參數(shù)會影響所有的hive作業(yè)互艾，我建議自己啟任務(wù)前啟動一個合適的并行度設(shè)置在代碼里，或者sql-cli可以在sql-client-defaults.yaml配置）

configuration.setString("table.exec.hive.infer-source-parallelism.max", "100");
configuration.setString("table.exec.hive.fallback-mapred-reader", "true");

持續(xù)更新 ...

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末讯泣，一起剝皮案震驚了整個濱河市纫普，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌好渠，老刑警劉巖局嘁，帶你破解...
沈念sama閱讀 212,599評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件溉箕，死亡現(xiàn)場離奇詭異晦墙，居然都是意外死亡悦昵，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,629評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門晌畅，熙熙樓的掌柜王于貴愁眉苦臉地迎上來但指，“玉大人，你說我怎么就攤上這事抗楔∑宓剩” “怎么了？”我有些...
開封第一講書人閱讀 158,084評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵连躏，是天一觀的道長剩岳。經(jīng)常有香客問我，道長入热，這世上最難降的妖魔是什么拍棕？我笑而不...
開封第一講書人閱讀 56,708評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮勺良，結(jié)果婚禮上绰播，老公的妹妹穿的比我還像新娘。我一直安慰自己尚困，他們只是感情好蠢箩，可當(dāng)我...
茶點(diǎn)故事閱讀 65,813評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著事甜，像睡著了一般谬泌。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上逻谦，一...
開封第一講書人閱讀 50,021評論 1贊 291
城市分裂傳說
那天掌实，我揣著相機(jī)與錄音，去河邊找鬼跨跨。笑死潮峦，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的勇婴。我是一名探鬼主播忱嘹，決...
沈念sama閱讀 39,120評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼耕渴！你這毒婦竟也來了拘悦？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,866評論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤橱脸，失蹤者是張志新（化名）和其女友劉穎础米，沒想到半個月后分苇，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,308評論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡屁桑，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,633評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年医寿，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蘑斧。...
茶點(diǎn)故事閱讀 38,768評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡靖秩，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出竖瘾，到底是詐尸還是另有隱情沟突，我是刑警寧澤，帶...
沈念sama閱讀 34,461評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布捕传，位于F島的核電站惠拭，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏庸论。R本人自食惡果不足惜职辅，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,094評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望葡公。院中可真熱鬧罐农，春花似錦、人聲如沸催什。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,850評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽蒲凶。三九已至气筋，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間旋圆，已是汗流浹背宠默。一陣腳步聲響...
開封第一講書人閱讀 32,082評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留灵巧，地道東北人搀矫。一個月前我還...
沈念sama閱讀 46,571評論 2贊 362
代替公主和親
正文我出身青樓，卻偏偏與公主長得像刻肄，于是被迫代替她去往敵國和親瓤球。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,666評論 2贊 350

Flink Sql on Hive 的生產(chǎn)遇到的坑以及優(yōu)化（持續(xù)更新 ...）

1粮宛、HiveSource-xxxx.xxxx's parallelism (200) is higher than the max parallelism (128). Please lower the parallelism or increase the max parallelism.

（1）報錯

（2）解決

2懈万、flink sql讀取hive表時建議手動配置table.exec.hive.fallback-mapred-reader: true生效

（1）報錯

報錯原文：

（2）解決

a最爬、用sql-cli可以配置在flink包下的/conf包里sql-client-defaults.yaml這個文件里

b、如果是在代碼里提交flink sql门岔，像下面這樣配置Configuration就好：

3爱致、如果你的hive表的分區(qū)非常多，flink的默認(rèn)配置會幫你開啟很多的Taskmanager

（1）報錯

（2）解決

持續(xù)更新 ...

推薦閱讀更多精彩內(nèi)容