最火爆的開源流式系統(tǒng)Storm vs 新星Samza

轉(zhuǎn)載自：https://my.oschina.net/u/2326085/blog/391336

分布計算系統(tǒng)框架绰疤，按照數(shù)據(jù)集的特點來說侧馅，主要分為data-flow和streaming兩種扭屁。data-flow主要是以數(shù)據(jù)塊為數(shù)據(jù)源來處理數(shù)據(jù)握玛，代表有：MR、Spark等疹吃，我稱作它們?yōu)榇髷?shù)據(jù)蕉毯，而streaming主要是處理單位內(nèi)得到的數(shù)據(jù)乓搬，這種方式，更注重于實時性代虾，主要包括Strom进肯、JStorm和Samza等，我稱作它們?yōu)榭鞌?shù)據(jù)棉磨。

在這篇文章中江掩，我主要談論streaming相關(guān)的框架。

第一個是Storm乘瓤，一個實時計算系統(tǒng)环形，它假定數(shù)據(jù)源是動態(tài)的，可以向流水一樣處理數(shù)據(jù)衙傀。

它的特點是：低延遲抬吟、高性能、分布式统抬、可擴展和容錯性火本。

架構(gòu)如下圖所示。

image

Storm的具體概念可以參照：http://blog.csdn.net/hljlzc2007/article/details/12976211聪建，這里不做具體介紹钙畔。

Storm目前算是最最穩(wěn)定的開源流式處理框架，但是個人認為它有兩個問題金麸。

Storm雖然支持多個語言編寫spout和bolt端的代碼擎析，但是它的主要技術(shù)實現(xiàn)是clojure，這給玩大數(shù)據(jù)钱骂、開源的朋友帶來了極大的不變叔锐，因為大家會的語言不是以java和C++等大眾語言為主挪鹏，這樣的話见秽，變得不可控了，難以深入了解讨盒、修改其細節(jié)解取。
Storm可以支持在Yarn(Hadoop 2.0)上，可以和其他開源框架共享Hadoop集群的資源返顺，但是性能不佳禀苦，這個有待Storm改善

當然無論如何蔓肯，Storm依然是目前開源流式處理框架的王者。

第二個我想說的是JStorm振乏，這個是阿里做的蔗包，算是Storm的另一個實現(xiàn)，它用的語言是Java.

特點：

客戶端的API與Storm基本上是一致的慧邮，如果從Storm遷移過來调限，不需要修改bolt和spout的代碼
Jstrom比Strom穩(wěn)定，速度更快
提供了一些新的特性

大家有興趣可以去玩玩误澳，項目地址https://github.com/alibaba/jstorm

第三個是Samza

Samza是由LinkedIn開源的一個技術(shù)耻矮，它是一個開源的分布式流處理系統(tǒng)，非常類似于Storm忆谓。不同的是它運行在Hadoop之上裆装，并且使用了自己開發(fā)的Kafka分布式消息處理系統(tǒng)。

這是Linkin開發(fā)的一個小而美的項目倡缠，如何美呢哨免？

只有幾千行代碼，完成的功能就可以和Storm媲美昙沦，當然目前還有很多的不足
和Kafka結(jié)合緊密铁瞒，更方便的處理數(shù)據(jù)
運行在Yarn上

之前我做過的一個項目，是Kafka + Storm + ElasticSearch桅滋，將來完全可以將Storm替換成Samza慧耍，這樣的話，還可以利用Hadoop集群的資源丐谋，做一些存儲芍碧、離線分析的功能。將實時處理和離線分析都運行在Hadoop上号俐，不得不說Samza是一個偉大的項目泌豆，這樣可以減少項目的增長復雜度，利于維護吏饿，還是那句話踪危，小而美的東西，更受歡迎一些猪落。

架構(gòu)：

Samza主要包含三層贞远，

流處理層 --> Kafka
執(zhí)行層 --> YARN
處理層 --> Samza API

Samza的流處理層和執(zhí)行層都是可插拔式的，開發(fā)人員可以使用其他框架來替代笨忌，不局限于上述兩種技術(shù)蓝仲。

Samza提供了一個YARN ApplicationMaster，和YARN job，運行在集群之外袱结，下圖中不同顏色代表不同的主機谢床。

Samza客戶端告訴YARN的Resouce Manager扎谎，它想啟動一個Samza job， YARN RM 告訴YARN Node manager，分配空間給YARN ApplicationMaster展箱，NM指定完空間后蝶缀，YARN container會運行Samza Task Runner属韧。

image

Samza狀態(tài)管理

流式處理數(shù)據(jù)對狀態(tài)的管理是很難的亮钦，由于數(shù)據(jù)是流動的，本身沒有狀態(tài)噪漾，這樣就需要靠歷史數(shù)據(jù)來記錄應用的場合硼砰，Samza提供了一個內(nèi)部的key-value數(shù)據(jù)庫，它是基于LevelDB欣硼，運行的JVM之外的题翰，使用它來存儲歷史數(shù)據(jù)。這樣的做的好處是：

減少JVM的開銷
使用內(nèi)部存儲诈胜，極大提高的吞吐率
減少并發(fā)操作

Samza處理流程.

下圖是Samza官方給的一例子豹障，根據(jù)Member ID分組，計算頁面訪問次數(shù)焦匈。入口消息分別來自Machine1血公、2，出口是Machine3缓熟，我們可以這樣理解累魔，消息分散在不同的消息系統(tǒng)中（Kafka），Samza從不同的Kafka中讀取topic够滑，在將topic進行處理后垦写，發(fā)送到Machine3，這里不做過多分解彰触，具體可以參照官方文檔梯投。

image

項目地址：https://github.com/apache/incubator-samza

官方文件：http://samza.incubator.apache.org/

以上給了我們無限遐想，Storm是否會保持領先地位况毅，Samza能否取而代之呢分蓖，無論如何，作為開發(fā)者來說尔许，幾千行代碼么鹤，我都迫不及待去要讀一下了。

轉(zhuǎn)自 https://my.oschina.net/u/2326085/blog/391336

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末母债，一起剝皮案震驚了整個濱河市午磁，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌毡们，老刑警劉巖迅皇，帶你破解...
沈念sama閱讀 216,997評論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異衙熔，居然都是意外死亡登颓，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,603評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門红氯，熙熙樓的掌柜王于貴愁眉苦臉地迎上來框咙，“玉大人，你說我怎么就攤上這事痢甘±觯” “怎么了？”我有些...
開封第一講書人閱讀 163,359評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵塞栅，是天一觀的道長者铜。經(jīng)常有香客問我，道長放椰，這世上最難降的妖魔是什么作烟？我笑而不...
開封第一講書人閱讀 58,309評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮砾医，結(jié)果婚禮上拿撩，老公的妹妹穿的比我還像新娘。我一直安慰自己如蚜，他們只是感情好压恒，可當我...
茶點故事閱讀 67,346評論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著错邦，像睡著了一般涎显。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上兴猩，一...
開封第一講書人閱讀 51,258評論 1贊 300
城市分裂傳說
那天期吓，我揣著相機與錄音，去河邊找鬼倾芝。笑死讨勤，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的晨另。我是一名探鬼主播潭千，決...
沈念sama閱讀 40,122評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼借尿！你這毒婦竟也來了刨晴？” 一聲冷哼從身側(cè)響起屉来，我...
開封第一講書人閱讀 38,970評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎狈癞，沒想到半個月后茄靠，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,403評論 1贊 313
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡蝶桶，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,596評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年慨绳，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片真竖。...
茶點故事閱讀 39,769評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡脐雪，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出恢共，到底是詐尸還是另有隱情战秋，我是刑警寧澤，帶...
沈念sama閱讀 35,464評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布讨韭，位于F島的核電站获询，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏拐袜。R本人自食惡果不足惜吉嚣，卻給世界環(huán)境...
茶點故事閱讀 41,075評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蹬铺。院中可真熱鬧尝哆，春花似錦、人聲如沸甜攀。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,705評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽规阀。三九已至恒序，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間谁撼，已是汗流浹背歧胁。一陣腳步聲響...
開封第一講書人閱讀 32,848評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留厉碟，地道東北人喊巍。一個月前我還...
沈念sama閱讀 47,831評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像箍鼓，于是被迫代替她去往敵國和親崭参。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,678評論 2贊 354

最火爆的開源流式系統(tǒng)Storm vs 新星Samza

推薦閱讀更多精彩內(nèi)容