星環(huán):如何構(gòu)建企業(yè)級(jí)Hadoop/Spark分析平臺(tái)

//
Transwarp - 新聞詳情
http://www.transwarp.io/news/detail?id=25

一說大數(shù)據(jù)雁刷,人們往往想到Hadoop咬像。這固然不錯(cuò)城舞,但隨著大數(shù)據(jù)技術(shù)的深入應(yīng)用槽华,多種類數(shù)據(jù)應(yīng)用要求的不斷提出,一些Hadoop不甚專注的領(lǐng)域開始被人們注意杭攻,相關(guān)技術(shù)也迅速獲得專業(yè)技術(shù)領(lǐng)域的應(yīng)用祟敛。 最近半年來的Spark之熱即是這樣的一個(gè)典型。
Spark是一個(gè)基于內(nèi)存計(jì)算的開源集群計(jì)算系統(tǒng)兆解,目的是更快速地進(jìn)行數(shù)據(jù)分析馆铁。 Spark由加州伯克利大學(xué)AMP實(shí)驗(yàn)室Matei為主的小團(tuán)隊(duì)使用Scala開發(fā),早期核心部分的代碼只有3萬行痪宰,非常輕量級(jí)叼架。Spark 提供了與Hadoop Map/Reduce 相似的分布式計(jì)算框架,但基于內(nèi)存和迭代優(yōu)化的設(shè)計(jì)衣撬,因此在交互式數(shù)據(jù)分析和數(shù)據(jù)挖掘工作負(fù)載中表現(xiàn)更優(yōu)秀乖订。
進(jìn)入2014年以后,Spark開源生態(tài)系統(tǒng)得到了大幅增長具练,已成為大數(shù)據(jù)領(lǐng)域最活躍的開源項(xiàng)目之一乍构。Spark之所以吸引如此多的關(guān)注,究其原因主要是因?yàn)镾park具有的高性能扛点、高靈活性哥遮、與Hadoop生態(tài)系統(tǒng)完美融合等三方面的特征。
首先陵究,Spark對(duì)分布的數(shù)據(jù)集進(jìn)行抽象眠饮,創(chuàng)新地提出RDD(Resilient Distributed Dataset)的概念,所有的統(tǒng)計(jì)分析任務(wù)被翻譯成對(duì)RDD的若干基本操作組成的有向無環(huán)圖(DAG)铜邮。RDD可以被駐留在內(nèi)存中仪召,后續(xù)的任務(wù)可以直接讀取內(nèi)存中的數(shù)據(jù);同時(shí)分析DAG中任務(wù)之間的依賴性可以把相鄰的任務(wù)合并松蒜,從而減少了大量的中間結(jié)果輸出扔茅,極大減少了磁盤I/O,使得復(fù)雜數(shù)據(jù)分析任務(wù)更高效秸苗。從這個(gè)意義上來說召娜,如果任務(wù)夠復(fù)雜,迭代次數(shù)夠多惊楼,Spark比Map/Reduce快一到兩個(gè)數(shù)量級(jí)玖瘸。
其次,Spark是一個(gè)靈活的計(jì)算框架檀咙,適合做批處理店读、工作流、交互式分析攀芯、迭代式機(jī)器學(xué)習(xí)屯断、流處理等不同類型的應(yīng)用,因此Spark可以成為一個(gè)用途廣泛的計(jì)算引擎侣诺,并在未來取代Map/Reduce的地位殖演。
最后,Spark可以與Hadoop生態(tài)系統(tǒng)的很多組件互操作年鸳。Spark可以運(yùn)行在新一代資源管理框架YARN上趴久,它還可以讀取已有的存放在Hadoop上的數(shù)據(jù),這是個(gè)非常大的優(yōu)勢(shì)搔确。
雖然Spark具有以上三大優(yōu)點(diǎn)彼棍,但從目前Spark的發(fā)展和應(yīng)用現(xiàn)狀來看灭忠,Spark自身也存在很多缺陷,主要包括以下幾個(gè)方面:
1.穩(wěn)定性方面座硕,由于代碼質(zhì)量問題弛作,Spark長時(shí)間運(yùn)行會(huì)經(jīng)常出錯(cuò),在架構(gòu)方面华匾,由于大量數(shù)據(jù)被緩存在內(nèi)存中映琳,Java垃圾回收緩慢的現(xiàn)象嚴(yán)重,導(dǎo)致Spark的性能不穩(wěn)定蜘拉,在復(fù)雜場景SQL的性能甚至不如現(xiàn)有的Map/Reduce萨西。
2.不能處理大數(shù)據(jù),單臺(tái)機(jī)器處理數(shù)據(jù)過大旭旭,或者由于數(shù)據(jù)傾斜導(dǎo)致中間結(jié)果超過內(nèi)存大小時(shí)谎脯,常常出現(xiàn)內(nèi)存不夠或者無法運(yùn)行得出結(jié)果。然而持寄,Map/Reduce計(jì)算框架可以處理大數(shù)據(jù)穿肄,在這方面,Spark不如Map/Reduce計(jì)算框架有效际看。
3.不能支持復(fù)雜的SQL統(tǒng)計(jì)咸产,目前Spark支持的SQL語法的完整程度還不能應(yīng)用在復(fù)雜數(shù)據(jù)分析中。在可管理性方面仲闽,Spark與YARN的結(jié)合不完善脑溢,這就在用戶使用過程中埋下隱患,易出現(xiàn)各種難題赖欣。
雖然Spark正活躍在Cloudera屑彻、MapR、Hortonworks等眾多知名大數(shù)據(jù)公司顶吮,但是如果Spark本身的這些缺陷得不到及時(shí)處理社牲,將會(huì)嚴(yán)重影響 Spark的普及和發(fā)展。在本土大數(shù)據(jù)平臺(tái)軟件公司星環(huán)信息科技(上海)有限公司(以下簡稱"星環(huán)科技")推出一系列關(guān)于Spark的大數(shù)據(jù)平臺(tái)產(chǎn)品之后悴了,這些難題已能夠迎刃而解搏恤。
星環(huán)科技推出的交互式分析引擎名叫Inceptor,從下往上有三層架構(gòu),最下面是一個(gè)分布式緩存(Transwarp Holodesk),可建在內(nèi)存或者SSD上湃交,中間層是Apache Spark計(jì)算引擎層熟空,最上層包括SQL’99和PL/SQL編譯器、統(tǒng)計(jì)算法庫和機(jī)器學(xué)習(xí)算法庫搞莺,提供完整的R語言訪問接口息罗。


Transwarp Inceptor對(duì)Spark進(jìn)行了大量的改進(jìn),具有高性能才沧、穩(wěn)定性好迈喉、功能豐富绍刮、易管理等特征,可以切實(shí)解決Spark本身存在的難題挨摸,具體而言孩革,星環(huán)Inceptor具有以下幾點(diǎn)優(yōu)勢(shì):
高性能
首先,支持高性能Apache Spark作為缺省執(zhí)行引擎油坝,可比原生的Hadoop Map/Reduce快嫉戚;其次刨裆,通過建立獨(dú)立于Spark的分布式列式緩存層澈圈,可以有效防止GC的影響,消除Spark的性能波動(dòng)帆啃,同時(shí)在列式緩存上實(shí)現(xiàn)索引機(jī)制瞬女,進(jìn)一步提高了執(zhí)行性能;再次努潘,在SQL執(zhí)行計(jì)劃優(yōu)化方面诽偷,實(shí)現(xiàn)了基于代價(jià)的優(yōu)化器(cost based optimizer)以及多種優(yōu)化策略,性能可以比原生Spark快數(shù)倍疯坤;最后通過全新的方法解決數(shù)據(jù)傾斜或者數(shù)據(jù)量過大的問題报慕,使得處理超大數(shù)據(jù)量時(shí)也游刃有余。
更強(qiáng)的SQL支持
Inceptor提供ANSI SQL’99語法支持以及PL/SQL過程語言擴(kuò)展压怠,并且可以自動(dòng)識(shí)別HiveQL眠冈、SQL’99和PL/SQL語法,在保持跟Hive兼容的同時(shí)提供更強(qiáng)大的SQL支持菌瘫。由于現(xiàn)有的數(shù)據(jù)倉庫應(yīng)用大都基于SQL’99蜗顽,而且國內(nèi)客戶大量使用PL/SQL,因此Inceptor可以支持復(fù)雜的數(shù)據(jù)倉庫類分析應(yīng)用雨让,也使得從原有數(shù)據(jù)庫系統(tǒng)遷移到Hadoop更為容易雇盖,可以幫助企業(yè)建立高速可擴(kuò)展的數(shù)據(jù)倉庫和數(shù)據(jù)集市。
基于R 的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
Inceptor中包含了專業(yè)用于數(shù)據(jù)挖掘的R語言執(zhí)行引擎栖忠,并且擴(kuò)展了R語言崔挖,支持多種分布式數(shù)據(jù)挖掘算法,包括統(tǒng)計(jì)算法和機(jī)器學(xué)習(xí)算法庵寞;也支持在 R 中調(diào)用SQL語句虚汛,通過Spark訪問分布式內(nèi)存數(shù)據(jù)。這些功能使得用戶可以真正在全量數(shù)據(jù)上進(jìn)行機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘皇帮,而再也不用使用采樣的方法卷哩,精準(zhǔn)度得到很大提高。
多租戶/動(dòng)態(tài)集群創(chuàng)建/自由切換計(jì)算引擎
YARN的引入使得統(tǒng)一資源管理成為可能属拾,Inceptor缺省采用星環(huán)改進(jìn)后的YARN将谊,有效支持多個(gè)Spark或Map/Reduce集群冷溶,Inceptor的每一條SQL都可以通過簡單的提示(hint)來指定執(zhí)行引擎使用Spark或Map/Reduce。而通過YARN管理所有資源后尊浓,可以具備以下優(yōu)勢(shì):
(1)統(tǒng)一集群逞频,統(tǒng)一的HDFS和YARN集群,多個(gè)計(jì)算引擎共存并且訪問同一份數(shù)據(jù)栋齿,避免創(chuàng)建隔離的多個(gè)集群苗胀,減少數(shù)據(jù)拷貝或者遠(yuǎn)程訪問,提高效率瓦堵,也可降低維護(hù)成本基协。
(2)動(dòng)態(tài)部署,可以動(dòng)態(tài)創(chuàng)建和銷毀Spark集群菇用,靈活部署業(yè)務(wù)澜驮。適合對(duì)非7x24不間斷業(yè)務(wù)(例如周期性統(tǒng)計(jì)業(yè)務(wù))的動(dòng)態(tài)部署。
(3)資源隔離惋鸥,通過YARN的資源隔離和配額管理杂穷,可以避免使用同一個(gè)Spark集群使用單一調(diào)度算法時(shí)出現(xiàn)的計(jì)算資源爭搶現(xiàn)象,保證每項(xiàng)業(yè)務(wù)都能順利完成卦绣。星環(huán)科技的 YARN支持對(duì)計(jì)算資源和內(nèi)存資源的管理能力耐量,避免占用內(nèi)存資源多的Spark或Map/Reduce集群之間爭搶內(nèi)存資源。
(4)資源共享滤港,在申請(qǐng)資源配額后廊蜒,如果當(dāng)前用戶的資源緊張或受限,可以動(dòng)態(tài)調(diào)配其他用戶的閑置資源加入蜗搔,當(dāng)其他用戶使用時(shí)再歸還劲藐。
高性價(jià)比
Inceptor支持混合存儲(chǔ)體系(內(nèi)存/閃存/磁盤),Holodesk列式存儲(chǔ)可以存放在速度較快的閃存SSD上或者更快的內(nèi)存中樟凄。內(nèi)存聘芜、SSD和機(jī)械硬盤的速度比是100:10:1,而同樣容量的內(nèi)存缝龄、SSD汰现、硬盤的價(jià)格比也是100:10:1。采用為SSD優(yōu)化的Inceptor之后叔壤,實(shí)際測試發(fā)現(xiàn)瞎饲,采用SSD替代大容量昂貴的內(nèi)存作為緩存,性能沒有明顯的下降炼绘,因此可以用同樣的價(jià)格買到容量大10倍的SSD作為緩存嗅战,一方面可以提供跟純內(nèi)存緩存接近的性能,另一方面也可比純內(nèi)存數(shù)據(jù)庫處理更大的數(shù)據(jù)。
對(duì)于廣大用戶而言驮捍,在選擇Spark及大數(shù)據(jù)軟件時(shí)疟呐,高性能、高兼容性和高性價(jià)比的技術(shù)無疑是用戶的最愛东且,而星環(huán)Spark不僅可以實(shí)現(xiàn)三者的有機(jī)結(jié)合启具,更在此基礎(chǔ)上實(shí)現(xiàn)功能擴(kuò)展,為用戶提供更加全面優(yōu)質(zhì)的服務(wù)珊泳,從而更能打動(dòng)用戶的芳心鲁冯。
星環(huán)科技作為一家高科技大數(shù)據(jù)創(chuàng)業(yè)公司,致力于大數(shù)據(jù)基礎(chǔ)軟件的研發(fā)色查。星環(huán)科技目前掌握的企業(yè)級(jí)Hadoop和Spark核心技術(shù)在國內(nèi)獨(dú)樹一幟薯演,其產(chǎn)品Transwarp Data Hub (TDH)的整體架構(gòu)及功能特性堪比硅谷同行,在業(yè)界居于領(lǐng)先水平综慎,性能卓越涣仿,可處理從GB到PB級(jí)別的數(shù)據(jù)勤庐。星環(huán)科技的核心開發(fā)團(tuán)隊(duì)參與部署了國內(nèi)最早的Hadoop集群示惊,并在中國的電信、金融愉镰、交通米罚、政府等領(lǐng)域的落地應(yīng)用擁有豐富經(jīng)驗(yàn),是中國大數(shù)據(jù)核心技術(shù)企業(yè)化應(yīng)用的開拓者和實(shí)踐者丈探。
目前录择,星環(huán)科技正處于高速發(fā)展時(shí)期,相信在未來碗降,隨著星環(huán)Spark以及相關(guān)大數(shù)據(jù)基礎(chǔ)軟件的普及隘竭,整個(gè)大數(shù)據(jù)領(lǐng)域?qū)⑦~向新的發(fā)展高度。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末讼渊,一起剝皮案震驚了整個(gè)濱河市动看,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌爪幻,老刑警劉巖菱皆,帶你破解...
    沈念sama閱讀 211,348評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異挨稿,居然都是意外死亡仇轻,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門奶甘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來篷店,“玉大人,你說我怎么就攤上這事臭家∑I拢” “怎么了吭产?”我有些...
    開封第一講書人閱讀 156,936評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鸭轮。 經(jīng)常有香客問我臣淤,道長,這世上最難降的妖魔是什么窃爷? 我笑而不...
    開封第一講書人閱讀 56,427評(píng)論 1 283
  • 正文 為了忘掉前任邑蒋,我火速辦了婚禮,結(jié)果婚禮上按厘,老公的妹妹穿的比我還像新娘医吊。我一直安慰自己,他們只是感情好逮京,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,467評(píng)論 6 385
  • 文/花漫 我一把揭開白布卿堂。 她就那樣靜靜地躺著,像睡著了一般懒棉。 火紅的嫁衣襯著肌膚如雪草描。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,785評(píng)論 1 290
  • 那天策严,我揣著相機(jī)與錄音穗慕,去河邊找鬼。 笑死妻导,一個(gè)胖子當(dāng)著我的面吹牛逛绵,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播倔韭,決...
    沈念sama閱讀 38,931評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼术浪,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了寿酌?” 一聲冷哼從身側(cè)響起胰苏,我...
    開封第一講書人閱讀 37,696評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎份名,沒想到半個(gè)月后碟联,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,141評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡僵腺,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,483評(píng)論 2 327
  • 正文 我和宋清朗相戀三年鲤孵,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辰如。...
    茶點(diǎn)故事閱讀 38,625評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡普监,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情凯正,我是刑警寧澤毙玻,帶...
    沈念sama閱讀 34,291評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站廊散,受9級(jí)特大地震影響桑滩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜允睹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,892評(píng)論 3 312
  • 文/蒙蒙 一运准、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧缭受,春花似錦胁澳、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蔓搞,卻和暖如春胰丁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背败明。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國打工隘马, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留太防,地道東北人妻顶。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像蜒车,于是被迫代替她去往敵國和親讳嘱。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,492評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容