spark-helloword

大數(shù)據(jù)看了一段時間叹坦，發(fā)現(xiàn)大數(shù)據(jù)是架構(gòu)學(xué)習(xí)一個必須學(xué)習(xí)的領(lǐng)域。大數(shù)據(jù)是面向數(shù)字化領(lǐng)域的基礎(chǔ)設(shè)施卑雁，底層是分布式為基礎(chǔ)募书，或者說分布式為本質(zhì)；是一種不同的思維模式测蹲，有自己的理論基礎(chǔ)和發(fā)展脈絡(luò)莹捡，典型的如Google的三架馬車論文，每個經(jīng)典的開源組件下都有若干理論論文支撐扣甲；大數(shù)據(jù)是個龐大的技術(shù)棧篮赢，開源組件中提供了對于人工智能等前沿的支撐。需要開始學(xué)習(xí)琉挖，長遠(yuǎn)積累启泣。

spark和flink是兩個經(jīng)典的大數(shù)據(jù)流批一體框架，先選擇spark示辈，因為spark的領(lǐng)域更早寥茫，上手更簡單。現(xiàn)在先從helloworld入手

安裝

選擇的unbuntu系統(tǒng)顽耳，安裝java和scala坠敷，因為spark是用scala編寫的妙同，所以要安裝好scala的環(huán)境。

sudo apt install openjdk-11-jre-headless
sudo apt install scala

然后到spark官網(wǎng)下載
http://spark.apache.org/downloads.html
到本地解壓設(shè)置環(huán)境變量

tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz

設(shè)置環(huán)境變量spark安裝目錄下的bin目錄到.prifile膝迎，執(zhí)行source .proile讓設(shè)置生效

spark-shell --version

檢查是否安裝好

helloworld的例子

準(zhǔn)備一個文件粥帚，隨意一個英文文章就可以
在spark-shell交互界面下輸入腳本代碼

import org.apache.spark.rdd.RDD
val file: String = s"/temp/test.txt"
 
// 讀取文件內(nèi)容
val lineRDD: RDD[String] = spark.sparkContext.textFile(file)
 
// 以行為單位做分詞
val wordRDD: RDD[String] = lineRDD.flatMap(line => line.split(" "))
val cleanWordRDD: RDD[String] = wordRDD.filter(word => !word.equals(""))
 
// 把RDD元素轉(zhuǎn)換為（Key，Value）的形式
val kvRDD: RDD[(String, Int)] = cleanWordRDD.map(word => (word, 1))
// 按照單詞做分組計數(shù)
val wordCounts: RDD[(String, Int)] = kvRDD.reduceByKey((x, y) => x + y)
 
// 打印詞頻最高的5個詞匯
wordCounts.map{case (k, v) => (v, k)}.sortByKey(false).take(5)

如上代碼看起來非常眼熟限次，在erlang學(xué)習(xí)的時候?qū)W習(xí)函數(shù)式編程芒涡，最經(jīng)典的三件套是 map/filter/falt，這里的代碼就和函數(shù)式的界面接口一樣卖漫，非常簡單易懂费尽。

這個代碼使用的是Spark RDD的API，這里RDD是一個數(shù)據(jù)集操作的抽象羊始，按照函數(shù)式的理解旱幼，這些flatmap、filter突委、map柏卤、reduceByKey每個操作返回的都是一個高階函數(shù)，都沒有發(fā)生真正的計算匀油，只有最后一步take的時候真正發(fā)生計算缘缚。

小結(jié)

一個spark的helloword還是非常簡單，但是要學(xué)習(xí)的內(nèi)容還非常多敌蚜，特別是雖然這里封裝了非常簡單易用的接口桥滨，但是接口低下的分布式計算怎么發(fā)生的？還有那些其它原理弛车，值得好好探究學(xué)習(xí)齐媒。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市帅韧，隨后出現(xiàn)的幾起案子里初，更是在濱河造成了極大的恐慌，老刑警劉巖忽舟，帶你破解...
沈念sama閱讀 216,692評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異淮阐，居然都是意外死亡叮阅，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,482評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門泣特，熙熙樓的掌柜王于貴愁眉苦臉地迎上來浩姥，“玉大人，你說我怎么就攤上這事状您±盏” “怎么了兜挨？”我有些...
開封第一講書人閱讀 162,995評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長眯分。經(jīng)常有香客問我拌汇，道長，這世上最難降的妖魔是什么弊决？我笑而不...
開封第一講書人閱讀 58,223評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任噪舀，我火速辦了婚禮，結(jié)果婚禮上飘诗，老公的妹妹穿的比我還像新娘与倡。我一直安慰自己，他們只是感情好昆稿，可當(dāng)我...
茶點故事閱讀 67,245評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布纺座。她就那樣靜靜地躺著，像睡著了一般溉潭。火紅的嫁衣襯著肌膚如雪净响。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,208評論 1贊 299
城市分裂傳說
那天岛抄，我揣著相機與錄音别惦，去河邊找鬼。笑死夫椭，一個胖子當(dāng)著我的面吹牛掸掸，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播蹭秋，決...
沈念sama閱讀 40,091評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼扰付，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了仁讨？” 一聲冷哼從身側(cè)響起羽莺，我...
開封第一講書人閱讀 38,929評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎洞豁，沒想到半個月后盐固，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,346評論 1贊 311
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡丈挟，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,570評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年刁卜，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片曙咽。...
茶點故事閱讀 39,739評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蛔趴，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出例朱，到底是詐尸還是另有隱情孝情，我是刑警寧澤鱼蝉，帶...
沈念sama閱讀 35,437評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站箫荡，受9級特大地震影響魁亦，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜菲茬，卻給世界環(huán)境...
茶點故事閱讀 41,037評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一吉挣、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧婉弹，春花似錦睬魂、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,677評論 0贊 22
一樁弒父案氯哮，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至商佛，卻和暖如春喉钢，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背良姆。一陣腳步聲響...
開封第一講書人閱讀 32,833評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工肠虽，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人玛追。一個月前我還...
沈念sama閱讀 47,760評論 2贊 369
代替公主和親
正文我出身青樓税课，卻偏偏與公主長得像，于是被迫代替她去往敵國和親痊剖。傳聞我的和親對象是個殘疾皇子韩玩，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,647評論 2贊 354

spark-helloword

安裝

helloworld的例子

小結(jié)

推薦閱讀更多精彩內(nèi)容