現(xiàn)在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的如火如荼,國家也支持大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展敲街。而在大數(shù)據(jù)發(fā)展應(yīng)用中团搞,需要很多的技術(shù)來支持大量數(shù)據(jù)的處理,spark就是其中之一多艇,而且是目前企業(yè)中應(yīng)用最為廣泛的一種技術(shù)逻恐。
spark是一種計算引擎,它是專門為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎峻黍。目前也形成了一套特定的生態(tài)系統(tǒng)复隆。其主要的應(yīng)用場景如下:
1. Spark是基于內(nèi)存的迭代計算框架,適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場合姆涩。需要反復(fù)操作的次數(shù)越多挽拂,所需讀取的數(shù)據(jù)量越大,受益越大骨饿,數(shù)據(jù)量小但是計算密集度較大的場合亏栈,受益就相對較小;
2. 由于RDD的特性,Spark不適用那種異步細粒度更新狀態(tài)的應(yīng)用宏赘,例如web服務(wù)的存儲或者是增量的web爬蟲和索引绒北。就是對于那種增量修改的應(yīng)用模型不適合;
3. 數(shù)據(jù)量不是特別大,但是要求實時統(tǒng)計分析需求置鼻。
只要滿足以上條件都可以用spark技術(shù)來進行處理镇饮。在spark的應(yīng)用場景中蜓竹,普遍都是計算量巨大箕母,效率要求較高的業(yè)務(wù)上储藐。Spark使用Scala語言進行實現(xiàn),它是一種面向?qū)ο笏皇恰⒑瘮?shù)式編程語言钙勃,能夠像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集,具有運行速度快聂喇、易用性好辖源、通用性強以及隨處運行等特點,適合大多數(shù)批處理工作希太,并已成為大數(shù)據(jù)時代企業(yè)大數(shù)據(jù)處理優(yōu)選技術(shù)克饶,其中有代表性企業(yè)有騰訊、Yahoo誊辉、淘寶以及優(yōu)酷土豆等矾湃。
小編收藏整理了一些大數(shù)據(jù)學習的相關(guān)資料和免費的公開課,需要的話可以直接留言評論小編6槌巍Q尽!