Hologres揭秘:優(yōu)化COPY腹殿,批量導(dǎo)入性能提升5倍+

Hologres(中文名交互式分析)是阿里云自研的一站式實(shí)時(shí)數(shù)倉(cāng)趟佃,這個(gè)云原生系統(tǒng)融合了實(shí)時(shí)服務(wù)和分析大數(shù)據(jù)的場(chǎng)景,全面兼容PostgreSQL協(xié)議并與大數(shù)據(jù)生態(tài)無(wú)縫打通友多,能用同一套數(shù)據(jù)架構(gòu)同時(shí)支持實(shí)時(shí)寫(xiě)入實(shí)時(shí)查詢(xún)以及實(shí)時(shí)離線聯(lián)邦分析牲平。它的出現(xiàn)簡(jiǎn)化了業(yè)務(wù)的架構(gòu),為業(yè)務(wù)提供實(shí)時(shí)決策的能力域滥,讓大數(shù)據(jù)發(fā)揮出更大的商業(yè)價(jià)值纵柿。從阿里集團(tuán)誕生到云上商業(yè)化,隨著業(yè)務(wù)的發(fā)展和技術(shù)的演進(jìn)启绰,Hologres也在持續(xù)不斷優(yōu)化核心技術(shù)競(jìng)爭(zhēng)力藐窄,為了讓大家更加了解Hologres,我們計(jì)劃持續(xù)推出Hologres底層技術(shù)原理揭秘系列酬土,從高性能存儲(chǔ)引擎到高效率查詢(xún)引擎荆忍,高吞吐寫(xiě)入到高QPS查詢(xún)等,全方位解讀Hologres撤缴,請(qǐng)大家持續(xù)關(guān)注刹枉!

本期我們將帶來(lái)Hologers COPY導(dǎo)入性能優(yōu)化實(shí)現(xiàn)性能提升5倍+方面的技術(shù)原理解讀。

背景

在PostgreSQL中屈呕,COPY命令用于文本文件數(shù)據(jù)導(dǎo)入微宝,其在PG生態(tài)里面有著重要的作用:

  • 完美兼容PG幾十種數(shù)據(jù)類(lèi)型,包括自定義類(lèi)型等等虎眨。
  • 文本解析導(dǎo)入細(xì)節(jié)考慮的非常完善蟋软,也是業(yè)界標(biāo)桿。
  • 業(yè)務(wù)價(jià)值嗽桩,業(yè)務(wù)集成的成本低岳守,psql一條命令或者copy manager等等無(wú)需第三方的集成依賴(lài)。
  • 日常開(kāi)發(fā)測(cè)試中高頻使用碌冶,比如tpch測(cè)試湿痢,功能驗(yàn)證,線上問(wèn)題復(fù)現(xiàn)等扑庞。

Hologres完全兼容PG(PostgreSQL)生態(tài)譬重,支持使用COPY命令導(dǎo)入數(shù)據(jù),但是在PostgreSQL中罐氨,COPY的導(dǎo)入性能差強(qiáng)人意臀规,只有20MB/s。而大數(shù)據(jù)處理場(chǎng)景栅隐,往往需要高性能的寫(xiě)入塔嬉,PG的COPY寫(xiě)入性能不能滿(mǎn)足實(shí)際業(yè)務(wù)狠怨。
基于此,Hologres對(duì)COPY寫(xiě)入性能進(jìn)行了優(yōu)化邑遏,以達(dá)到高性能、高可用的目的恰矩。本文將會(huì)介紹Hologres對(duì)COPY命令優(yōu)化的技術(shù)原理记盒,從而實(shí)現(xiàn)導(dǎo)入性能5倍+。

COPY瓶頸定位

在早期版本中外傅,COPY導(dǎo)入在Hologres的實(shí)現(xiàn)流程圖如下:


copy1.png

執(zhí)行流程:
1.FE(FrontEnd纪吮,前端節(jié)點(diǎn))負(fù)責(zé)接收用戶(hù)的請(qǐng)求,數(shù)據(jù)流入萎胰,以及具體的解析工作(包括分行碾盟,拆列,類(lèi)型Format解析等)技竟。
2.FE把完成解析的數(shù)據(jù)轉(zhuǎn)成Arrow寫(xiě)入到Shuffle Service冰肴。
3.HQE(Hologres Query Engine)從Shuffle Service獲取數(shù)據(jù),并根據(jù)分布鍵完成Shuffle榔组。
4.SE(Storage Engine)把數(shù)據(jù)流寫(xiě)入Pangu熙尉。

在COPY工作的過(guò)程中,能夠看到FE的進(jìn)程一直處于CPU打滿(mǎn)的狀態(tài)搓扯,下圖是性能調(diào)試時(shí)的記錄:


copy2.png

可以確定以下瓶頸:

  • Shuffle Service中間節(jié)點(diǎn)引入的性能損耗检痰。如上圖的紅框部分,需要將PG的內(nèi)部數(shù)據(jù)結(jié)構(gòu)HeapTuple轉(zhuǎn)換成Arrow并寫(xiě)入Shuffle Service锨推。
  • PG解析本身的耗時(shí)铅歼,比如,I/O换可,對(duì)數(shù)據(jù)流切分椎椰,按照類(lèi)型Format解析等等。

改造技術(shù)難點(diǎn)

定位了瓶頸之后沾鳄,結(jié)合Hologres現(xiàn)有技術(shù)架構(gòu)俭识,要提升性能,主要有以下幾個(gè)難點(diǎn):

  • PostgreSQL的進(jìn)程模型洞渔,有很多Global Runtime Context套媚,多線程改造成本高。
  • 類(lèi)型解析依賴(lài)PostgreSQL類(lèi)型系統(tǒng)磁椒,所以無(wú)法簡(jiǎn)單的利用第三方文本解析庫(kù)加速堤瘤,比如Arrow。
  • FE Meta管理過(guò)程中浆熔,需要PostgreSQL系統(tǒng)表和COPY的交互本辐,從而保證PostgreSQL COPY系統(tǒng)表的行為穩(wěn)定及正確性。

Hologres優(yōu)化方案

為了突破上面的難點(diǎn),從而解決導(dǎo)入效率的問(wèn)題老虫,Hologres針對(duì)FE做了優(yōu)化,主要是解耦FE工作流程:

  • 保證Request進(jìn)程只負(fù)責(zé)茫多,接收請(qǐng)求祈匙,數(shù)據(jù)流入以及簡(jiǎn)單的數(shù)據(jù)切分;
  • 文本解析的工作交給具備PG計(jì)算能力支持的PQE分布式執(zhí)行天揖,
  • 優(yōu)化后的執(zhí)行方案如圖:


    copy3.png

優(yōu)化后夺欲,數(shù)據(jù)通過(guò)COPY導(dǎo)入Hologres的執(zhí)行流程如下:

  • FE負(fù)責(zé)接收用戶(hù)請(qǐng)求,并把流入的數(shù)據(jù)按行切片今膊,并寫(xiě)入共享隊(duì)列Queue些阅。
  • Coordinator把FE和PQE調(diào)度到同一臺(tái)機(jī)器,這樣Queue能以Shared Memory的方式實(shí)現(xiàn)斑唬,F(xiàn)E和PQE交互更高效市埋。
  • PQE從Queue里面獲取對(duì)應(yīng)的切片,并完成拆行恕刘,分列腰素,以及具體類(lèi)型解析。
  • HQE從PQE拖取數(shù)據(jù)雪营,并計(jì)算分布并Shuffle弓千。
  • SE負(fù)責(zé)把流入數(shù)據(jù)寫(xiě)入到Pangu。

5+倍性能提升

通過(guò)對(duì)系統(tǒng)的優(yōu)化献起,Hologres的COPY導(dǎo)入性能有了質(zhì)的飛躍洋访。以TPCH lineitem表為例,1億條數(shù)據(jù)谴餐,文件13G姻政,COPY導(dǎo)入性能如下:


copy4.png

可以從圖中看到,優(yōu)化后岂嗓,Hologres COPY上傳速度最高能達(dá)200MB/s+汁展,相比PostgreSQL快5倍以上!

總結(jié)

Hologres致力于一站式實(shí)時(shí)數(shù)倉(cāng)厌殉,在數(shù)據(jù)接入上有著非常龐大的生態(tài)家族食绿,支持多種異構(gòu)數(shù)據(jù)源的離線、實(shí)時(shí)寫(xiě)入公罕,包括DataWorks數(shù)據(jù)集成器紧、Flink、MaxCompute等豐富的寫(xiě)入方式楼眷。在大數(shù)據(jù)場(chǎng)景中铲汪,Hologres完全兼容PostgreSQL的COPY命令熊尉,并在此基礎(chǔ)之上,對(duì)系統(tǒng)優(yōu)化掌腰,實(shí)現(xiàn)了COPY導(dǎo)入性能比PG快5倍+狰住。COPY命令方式導(dǎo)入數(shù)據(jù),為Hologres數(shù)據(jù)接入生態(tài)又新增一種方式齿梁,滿(mǎn)足業(yè)務(wù)高性能寫(xiě)入需求催植,助力快速搭建企業(yè)級(jí)實(shí)時(shí)數(shù)倉(cāng)。

作者:鄭曉文(魯來(lái)) 現(xiàn)從事交互式分析Hologres引擎研發(fā)工作士飒。

后續(xù)我們將會(huì)陸續(xù)推出有關(guān)Hologres的技術(shù)底層原理揭秘系列,敬請(qǐng)持續(xù)關(guān)注蔗崎!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末酵幕,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子缓苛,更是在濱河造成了極大的恐慌芳撒,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件未桥,死亡現(xiàn)場(chǎng)離奇詭異笔刹,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)冬耿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)舌菜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人亦镶,你說(shuō)我怎么就攤上這事日月。” “怎么了缤骨?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵爱咬,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我绊起,道長(zhǎng)精拟,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任虱歪,我火速辦了婚禮蜂绎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘笋鄙。我一直安慰自己荡碾,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布局装。 她就那樣靜靜地躺著坛吁,像睡著了一般劳殖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上拨脉,一...
    開(kāi)封第一講書(shū)人閱讀 51,631評(píng)論 1 305
  • 那天哆姻,我揣著相機(jī)與錄音,去河邊找鬼玫膀。 笑死矛缨,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的帖旨。 我是一名探鬼主播箕昭,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼解阅!你這毒婦竟也來(lái)了落竹?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤货抄,失蹤者是張志新(化名)和其女友劉穎述召,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蟹地,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡积暖,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了怪与。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片夺刑。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖分别,靈堂內(nèi)的尸體忽然破棺而出性誉,到底是詐尸還是另有隱情,我是刑警寧澤茎杂,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布错览,位于F島的核電站,受9級(jí)特大地震影響煌往,放射性物質(zhì)發(fā)生泄漏倾哺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一刽脖、第九天 我趴在偏房一處隱蔽的房頂上張望羞海。 院中可真熱鬧,春花似錦曲管、人聲如沸却邓。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)腊徙。三九已至简十,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間撬腾,已是汗流浹背螟蝙。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留民傻,地道東北人胰默。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像漓踢,于是被迫代替她去往敵國(guó)和親牵署。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容