Flink Sql on Hive 的生產(chǎn)遇到的坑以及優(yōu)化(持續(xù)更新 ...)

1粮宛、HiveSource-xxxx.xxxx's parallelism (200) is higher than the max parallelism (128). Please lower the parallelism or increase the max parallelism.

(1)報錯

這是sql-cli 連接hive,查一張表報的錯

[ERROR] Could not execute SQL statement. Reason:
org.apache.flink.runtime.JobException: Vertex Source: HiveSource-xxxx.xxxx's parallelism (200) is higher than the max parallelism (128). Please lower the parallelism or increase the max parallelism.

(2)解決

只需要改動flink包下的/conf包里sql-client-defaults.yaml這個文件里的max-parallelism改為300即可

execution:
  max-parallelism: 300 

2懈万、flink sql讀取hive表時建議手動配置table.exec.hive.fallback-mapred-reader: true生效

(1)報錯

不管用sql-cli,還是把sql放在代碼里蹄葱,執(zhí)行以下sql都是下面的結(jié)果,同時報錯都是報Caused by: java.lang.IllegalArgumentException杜顺。

而我用Spark Sql跑下面的Sql都是正常的裁僧。

(1)First:
SELECT vid From table_A WHERE datekey = '20210112' AND event = 'XXX' AND vid = 'aaaaaa';   (**OK**)
SELECT vid From table_A WHERE datekey = '20210112' AND vid = 'aaaaaa';                     (**Error**)

(2)Second:
SELECT vid From table_B WHERE datekey = '20210112' AND event = 'YYY' AND vid = 'bbbbbb';   (**OK**)
SELECT vid From table_B WHERE datekey = '20210112' AND vid = 'bbbbbb';                     (**Error**)

報錯原文:

[ERROR] Could not execute SQL statement. Reason:
java.lang.RuntimeException: SplitFetcher thread 22 received unexpected exception while polling the records


java.lang.RuntimeException: One or more fetchers have encountered exception
  at org.apache.flink.connector.base.source.reader.fetcher.SplitFetcherManager.checkErrors(SplitFetcherManager.java:199)
  at org.apache.flink.connector.base.source.reader.SourceReaderBase.getNextFetch(SourceReaderBase.java:154)
  at org.apache.flink.connector.base.source.reader.SourceReaderBase.pollNext(SourceReaderBase.java:116)
  at org.apache.flink.streaming.api.operators.SourceOperator.emitNext(SourceOperator.java:273)
  at org.apache.flink.streaming.runtime.io.StreamTaskSourceInput.emitNext(StreamTaskSourceInput.java:67)
  at org.apache.flink.streaming.runtime.io.StreamOneInputProcessor.processInput(StreamOneInputProcessor.java:65)
  at org.apache.flink.streaming.runtime.tasks.StreamTask.processInput(StreamTask.java:395)
  at org.apache.flink.streaming.runtime.tasks.mailbox.MailboxProcessor.runMailboxLoop(MailboxProcessor.java:191)
  at org.apache.flink.streaming.runtime.tasks.StreamTask.runMailboxLoop(StreamTask.java:609)
  at org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:573)
  at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:755)
  at org.apache.flink.runtime.taskmanager.Task.run(Task.java:570)
  at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.RuntimeException: SplitFetcher thread 22 received unexpected exception while polling the records
  at org.apache.flink.connector.base.source.reader.fetcher.SplitFetcher.runOnce(SplitFetcher.java:146)
  at org.apache.flink.connector.base.source.reader.fetcher.SplitFetcher.run(SplitFetcher.java:101)
  at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
  at java.util.concurrent.FutureTask.run(FutureTask.java:266)
  at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
  at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
  ... 1 more
Caused by: java.lang.IllegalArgumentException
  at java.nio.Buffer.position(Buffer.java:244)
  at java.nio.HeapByteBuffer.get(HeapByteBuffer.java:153)
  at java.nio.ByteBuffer.get(ByteBuffer.java:715)
  at org.apache.flink.hive.shaded.parquet.io.api.Binary$ByteBufferBackedBinary.getBytes(Binary.java:422)
  at org.apache.flink.hive.shaded.formats.parquet.vector.reader.BytesColumnReader.readBatchFromDictionaryIds(BytesColumnReader.java:79)
  at org.apache.flink.hive.shaded.formats.parquet.vector.reader.BytesColumnReader.readBatchFromDictionaryIds(BytesColumnReader.java:33)
  at org.apache.flink.hive.shaded.formats.parquet.vector.reader.AbstractColumnReader.readToVector(AbstractColumnReader.java:199)
  at org.apache.flink.hive.shaded.formats.parquet.ParquetVectorizedInputFormat$ParquetReader.nextBatch(ParquetVectorizedInputFormat.java:359)
  at org.apache.flink.hive.shaded.formats.parquet.ParquetVectorizedInputFormat$ParquetReader.readBatch(ParquetVectorizedInputFormat.java:328)
  at org.apache.flink.connector.file.src.impl.FileSourceSplitReader.fetch(FileSourceSplitReader.java:67)
  at org.apache.flink.connector.base.source.reader.fetcher.FetchTask.run(FetchTask.java:56)
  at org.apache.flink.connector.base.source.reader.fetcher.SplitFetcher.runOnce(SplitFetcher.java:138)
  ... 6 more

(2)解決

昨天提交了一個issue:https://issues.apache.org/jira/browse/FLINK-20951个束,云邪大佬幫忙叫Rui Li大佬幫忙看了一下,需要配置table.exec.hive.fallback-mapred-reader: true聊疲。

我昨天翻遍了官網(wǎng)也看到了這個配置茬底,官方文檔說是默認(rèn)開啟的,所以還是建議手動將這個配置配置上获洲。官網(wǎng)的解釋是啟動這個配置是啟用hive表的向量化讀取阱表,當(dāng)Format是ORC 或者 Parquet類型,同時沒有hive的復(fù)雜類型贡珊。
官網(wǎng)鏈接:https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/hive/hive_read_write.html#vectorized-optimization-upon-read

a最爬、用sql-cli可以配置在flink包下的/conf包里sql-client-defaults.yaml這個文件里

configuration:
  table.exec.hive.fallback-mapred-reader: true

b、如果是在代碼里提交flink sql门岔,像下面這樣配置Configuration就好:

Configuration configuration = tableEnv.getConfig().getConfiguration();
configuration.setString("table.exec.hive.fallback-mapred-reader", "true");

3爱致、如果你的hive表的分區(qū)非常多,flink的默認(rèn)配置會幫你開啟很多的Taskmanager

(1)報錯

可以看到一下子給你分配1000寒随,當(dāng)時看到時候被嚇到了

image

(2)解決

翻了一下官網(wǎng)糠悯,原來是Flink將根據(jù)文件數(shù)和每個文件中的塊數(shù)為其Hive讀取器推斷最佳并行度,不過目前看起來并不是很良好妻往。

可以關(guān)閉這個配置然后根據(jù)自己任務(wù)進(jìn)行配置(這個參數(shù)會影響所有的hive作業(yè)互艾,我建議自己啟任務(wù)前啟動一個合適的并行度設(shè)置在代碼里,或者sql-cli可以在sql-client-defaults.yaml配置)

configuration.setString("table.exec.hive.infer-source-parallelism.max", "100");
configuration.setString("table.exec.hive.fallback-mapred-reader", "true");

持續(xù)更新 ...

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末讯泣,一起剝皮案震驚了整個濱河市纫普,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌好渠,老刑警劉巖局嘁,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件溉箕,死亡現(xiàn)場離奇詭異晦墙,居然都是意外死亡悦昵,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進(jìn)店門晌畅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來但指,“玉大人,你說我怎么就攤上這事抗楔∑宓剩” “怎么了?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵连躏,是天一觀的道長剩岳。 經(jīng)常有香客問我,道長入热,這世上最難降的妖魔是什么拍棕? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮勺良,結(jié)果婚禮上绰播,老公的妹妹穿的比我還像新娘。我一直安慰自己尚困,他們只是感情好蠢箩,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著事甜,像睡著了一般谬泌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上逻谦,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天掌实,我揣著相機(jī)與錄音,去河邊找鬼跨跨。 笑死潮峦,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的勇婴。 我是一名探鬼主播忱嘹,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼耕渴!你這毒婦竟也來了拘悦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤橱脸,失蹤者是張志新(化名)和其女友劉穎础米,沒想到半個月后分苇,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡屁桑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年医寿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蘑斧。...
    茶點(diǎn)故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡靖秩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出竖瘾,到底是詐尸還是另有隱情沟突,我是刑警寧澤,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布捕传,位于F島的核電站惠拭,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏庸论。R本人自食惡果不足惜职辅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望葡公。 院中可真熱鬧罐农,春花似錦、人聲如沸催什。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蒲凶。三九已至气筋,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間旋圆,已是汗流浹背宠默。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留灵巧,地道東北人搀矫。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像刻肄,于是被迫代替她去往敵國和親瓤球。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,666評論 2 350

推薦閱讀更多精彩內(nèi)容

  • 說明:本人使用的cdh版本是5.13.2敏弃,對應(yīng)的hive版本是1.1.0-cdh5.13.2卦羡,flink版本為1....
    teammuscle閱讀 2,786評論 0 1
  • 推薦指數(shù): 6.0 書籍主旨關(guān)鍵詞:特權(quán)、焦點(diǎn)、注意力绿饵、語言聯(lián)想欠肾、情景聯(lián)想 觀點(diǎn): 1.統(tǒng)計學(xué)現(xiàn)在叫數(shù)據(jù)分析,社會...
    Jenaral閱讀 5,705評論 0 5
  • 昨天拟赊,在回家的路上刺桃,坐在車?yán)镉圃沼圃盏乜粗摹度龉衬墓适隆罚冶焕锩娴膬?nèi)容深深吸引住了要门,盡管上學(xué)時...
    夜闌曉語閱讀 3,783評論 2 9
  • 一月四號的大沙有個想法欢搜。從昨晚到現(xiàn)在就一直圍繞在腦子里∏绰郑或許深受那些小說的影響炒瘟,或許真的就是我自己腦子或者精神么有...
    一個人的大沙閱讀 4,020評論 3 4
  • 記夢 前記 他回國了,而事實(shí)上他其實(shí)從未來過第步。我不知道我們是如何交流的疮装,但在夢里沒有語言障礙。我時而是第三視角看著...
    江挽心閱讀 679評論 0 0