[flow]Flink~流和批的一體化方案


阿里蔣曉偉:談流計算和批處理引擎Blink院刁,以及Flink和Spark的對比
http://sanwen8.cn/p/2bd8aWI.html

記者:相比Spark曹鸠、Hadoop朽肥、Storm等假哎,是什么樣的場景需求讓阿里搜索團隊選擇了Flink?

蔣曉偉:首先我們希望有個流計算和批處理的一體化處理方案虱疏。Spark和Flink都具有流和批處理能力妆兑,但是他們的做法是相反的魂拦。Spark Streaming是把流轉(zhuǎn)化成一個個小的批來處理,這種方案的一個問題是我們需要的延遲越低搁嗓,額外開銷占的比例就會越大芯勘,這導致了Spark Streaming很難做到秒級甚至亞秒級的延遲。Flink是把批當作一種有限的流腺逛,這種做法的一個特點是在流和批共享大部分代碼的同時還能夠保留批處理特有的一系列的優(yōu)化荷愕。因為這個原因,如果要用一套引擎來解決流和批處理棍矛,那就必須以流處理為基礎安疗,所以我們決定先選擇一個優(yōu)秀的流處理引擎。從功能上流處理可以分為無狀態(tài)的和有狀態(tài)兩種茄靠。在流處理的框架里引入狀態(tài)管理大大提升了系統(tǒng)的表達能力茂契,讓用戶能夠很方便地實現(xiàn)復雜的處理邏輯,是流處理在功能上的一個飛躍慨绳。流處理引擎對一致性的支持可以分為:best effort,at least once 和 exactly once。Exactly once的語義才能真正保證完全的一致性脐雪,F(xiàn)link采用的架構(gòu)比較優(yōu)雅地實現(xiàn)了exactly once的有狀態(tài)流處理厌小。另外在保證了一致性的前提下Flink在性能上也是相當優(yōu)秀的≌角铮總結(jié)一下璧亚,我們覺得在流處理方面Flink在功能,延遲脂信,一致性和性能上綜合來看是目前社區(qū)最優(yōu)秀的癣蟋。所以我們決定采用它來實現(xiàn)流和批的一體化方案。最后狰闪,還有一個很重要的原因是Flink有一個比較活躍的社區(qū)疯搅。

記者:如何看待Flink、Spark埋泵、Hadoop幔欧、Storm等技術發(fā)展和不同場景下的優(yōu)勢對比?比如與Spark相反丽声,F(xiàn)link把批處理化作流處理礁蔗,這種方式在使用時是否有什么限制?

蔣曉偉:大數(shù)據(jù)是從批處理開始的雁社,所以很多系統(tǒng)都是從批處理做起浴井,包括Spark。在批處理上Spark有著較深的積累霉撵,是一個比較優(yōu)秀的系統(tǒng)滋饲。隨著技術的發(fā)展,很多原來只有批處理的業(yè)務都有了實時的需求喊巍,流處理將會變得越來越重要屠缭,甚至成為大數(shù)據(jù)處理的主要場景。Flink把批當作流來處理有個很重要的優(yōu)點是如果我們在流中引入一個blocking的算子崭参,我們還能接著做批處理特有的優(yōu)化呵曹,這個是以流處理為基礎的計算引擎的一大優(yōu)勢。所以我認為在架構(gòu)上這種設計在批處理上是可以做到最優(yōu)的何暮,而且比傳統(tǒng)的做法還有一些特別的優(yōu)勢奄喂,當然工程上的實現(xiàn)也很重要。


大數(shù)據(jù)引擎ApacheFlink升級為Apache頂級項目軟件與服務比特網(wǎng)
http://soft.chinabyte.com/153/13225153.shtml

  1. 快速

Flink利用基于內(nèi)存的數(shù)據(jù)流并將迭代處理算法深度集成到了系統(tǒng)的運行時中海洼,這就使得系統(tǒng)能夠以極快的速度來處理數(shù)據(jù)密集型和迭代任務跨新。

  1. 完全兼容Hadoop

Flink支持所有的Hadoop所有的輸入/輸出格式和數(shù)據(jù)類型,這就使得開發(fā)者無需做任何修改就能夠利用Flink運行歷史遺留的MapReduce操作

Flink主要包括基于Java和Scala的用于批量和基于流數(shù)據(jù)分析的API坏逢、優(yōu)化器和具有自定義內(nèi)存管理功能的分布式運行時等域帐,其主要架構(gòu)如下:

Paste_Image.png

開源的大數(shù)據(jù)分析平臺除了Flink外赘被,還包括Apache推出Google Dremel的開源版本Apache Drill(2014年12月份升級成為Apache基金會的頂級項目)、來自NSA(美國國家安全局)Apache Nifi(2014年12月份貢獻給Apache基金會)肖揣、來自Cloudera公司開發(fā)的實時分析系統(tǒng)Impala(受Google Dremel啟發(fā))民假、加州伯克利大學AMPLab開發(fā)的大數(shù)據(jù)分析系統(tǒng)Shark 、Facebook開源的分布式SQL查詢引擎Presto龙优、Hortonworks開源的實時且類SQL的即時查詢系統(tǒng)Stinger等等羊异。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市彤断,隨后出現(xiàn)的幾起案子野舶,更是在濱河造成了極大的恐慌,老刑警劉巖宰衙,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件平道,死亡現(xiàn)場離奇詭異,居然都是意外死亡菩浙,警方通過查閱死者的電腦和手機巢掺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來劲蜻,“玉大人陆淀,你說我怎么就攤上這事∠孺遥” “怎么了轧苫?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長疫蔓。 經(jīng)常有香客問我含懊,道長,這世上最難降的妖魔是什么衅胀? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任岔乔,我火速辦了婚禮,結(jié)果婚禮上滚躯,老公的妹妹穿的比我還像新娘雏门。我一直安慰自己,他們只是感情好掸掏,可當我...
    茶點故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布茁影。 她就那樣靜靜地躺著,像睡著了一般丧凤。 火紅的嫁衣襯著肌膚如雪募闲。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天愿待,我揣著相機與錄音浩螺,去河邊找鬼靴患。 笑死,一個胖子當著我的面吹牛年扩,可吹牛的內(nèi)容都是我干的蚁廓。 我是一名探鬼主播访圃,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼厨幻,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了腿时?” 一聲冷哼從身側(cè)響起况脆,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎批糟,沒想到半個月后格了,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡徽鼎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年盛末,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片否淤。...
    茶點故事閱讀 40,680評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡悄但,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出石抡,到底是詐尸還是另有隱情檐嚣,我是刑警寧澤,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布啰扛,位于F島的核電站嚎京,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏隐解。R本人自食惡果不足惜鞍帝,卻給世界環(huán)境...
    茶點故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望煞茫。 院中可真熱鬧帕涌,春花似錦、人聲如沸溜嗜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽炸宵。三九已至辟躏,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間土全,已是汗流浹背捎琐。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工会涎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瑞凑。 一個月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓末秃,卻偏偏與公主長得像,于是被迫代替她去往敵國和親籽御。 傳聞我的和親對象是個殘疾皇子练慕,可洞房花燭夜當晚...
    茶點故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容