Hadoop和spark的性能有何區(qū)別。
如果說Hadoop是一家大型包工隊榴芳,我們可以通過它組織人員進行合作嗡靡,搬磚建造房屋,弊端在于速度較慢窟感。
Spark是另一家包工隊讨彼,成立時間較晚,但是他們搬磚更為靈活肌括,可以實時交互地蓋房子点骑,工作效率比Hadoop快得多。
當Hadoop開始升級谍夭,指定調(diào)度專家YARN調(diào)度工人黑滴。Spark從多個倉庫搬磚(HDFS,Cassandra,S3紧索,HBase)袁辈,還允許不同專家如YARN/ MESOS對人員和任務(wù)進行調(diào)度。
當然珠漂,Spark和Hadoop團隊進行合作晚缩,問題變得更加復(fù)雜。作為兩個獨立的包工隊媳危,二者都有著各自的優(yōu)缺點和特定的業(yè)務(wù)用例荞彼。
因此,我們說Hadoop和spark的性能區(qū)別在于:
Spark在內(nèi)存中運行速度比Hadoop快100倍待笑,在磁盤上運行速度快10倍鸣皂。眾所周知,Spark在數(shù)量只有十分之一的機器上暮蹂,對100TB數(shù)據(jù)進行排序的速度比Hadoop MapReduce快3倍寞缝。此外,Spark在機器學(xué)習(xí)應(yīng)用中的速度同樣更快仰泻,例如Naive Bayes和k-means荆陆。
Spark性能之所以比Hadoop更優(yōu),原因在于每次運行MapReduce任務(wù)時集侯,Spark都不會受到輸入輸出的限制被啼。事實證明帜消,應(yīng)用程序的速度要快得多。再有Spark的DAG可以在各個步驟之間進行優(yōu)化趟据。Hadoop在MapReduce步驟之間沒有任何周期性連接券犁,這意味著在該級別不會發(fā)生性能調(diào)整。但是汹碱,如果Spark與其他共享服務(wù)在YARN上運行粘衬,則性能可能會降低并導(dǎo)致RAM開銷內(nèi)存泄漏。出于這個原因咳促,如果用戶有批處理的訴求稚新,Hadoop被認為是更高效的系統(tǒng)。
在這里我還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流qq裙:788483959 (大數(shù)據(jù)資料分享)跪腹, 裙 里都是學(xué)大數(shù)據(jù)開發(fā)的褂删,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入冲茸,大家都是軟件開發(fā)黨屯阀,不定期分享干貨(只有大數(shù)據(jù)開發(fā)相關(guān)的),包括我自己整理的一份最新的大數(shù)據(jù)進階資料和高級開發(fā)教程轴术,歡迎進階中和進想深入大數(shù)據(jù)的小伙伴难衰。大數(shù)據(jù)開發(fā)、數(shù)據(jù)分析與挖掘線上教學(xué)逗栽,免費試聽盖袭!