spark sql demo

開(kāi)局一張圖霞溪,內(nèi)容全靠吹咙冗。(本圖純copy)

spark 架構(gòu)

寫(xiě)了spark程序已經(jīng)半年有余表锻,越學(xué)越覺(jué)得自己啥也沒(méi)學(xué)到。決定把spark沾邊的全搞一下乞娄。

首選spark sql瞬逊,為啥咧?因?yàn)槲矣玫搅?>_-> 2333....

我們都曉得仪或,spark核心是rdd确镊,spark sql同理!只是在這里他不叫rdd范删,而是叫dataFrame或者叫dataSet蕾域。如果你只想對(duì)著demo擼代碼,那么直接跳過(guò)這么多廢話到旦,直接下面代碼旨巷,如果有興趣,聽(tīng)聽(tīng)本司機(jī)姍姍添忘。

你可能會(huì)想問(wèn)采呐,spark sql干嘛的。我理解是:把數(shù)據(jù)結(jié)構(gòu)化處理搁骑。那rdd不是的嗎斧吐?當(dāng)然是。但是兩個(gè)使用場(chǎng)景不同仲器。(這里解釋有點(diǎn)不對(duì)煤率,別較真。rdd比較復(fù)雜乏冀,這里只用它一個(gè)用途來(lái)理解它蝶糯。)

通常spark 處理流程是 sc.textFile()//或者其他接口函數(shù)讀取數(shù)據(jù) -> rdd迭代處理->放到另一個(gè)地方(可以是控制臺(tái))? (當(dāng)然所有程序到最后都是干這事,實(shí)在無(wú)聊辆沦。)

這里sc讀數(shù)據(jù)是按行讀的昼捍。并不區(qū)分字段和字段類型。這是rdd初始性質(zhì)众辨。當(dāng)然你可以使用其他格式比如avro等序列化格式端三,這時(shí)讀是結(jié)構(gòu)化數(shù)據(jù)。如果你只是對(duì)數(shù)據(jù)過(guò)濾處理那么使用rdd一點(diǎn)毛病都沒(méi)有鹃彻。那么如果你想對(duì)數(shù)據(jù)做過(guò)濾郊闯、分組和統(tǒng)計(jì)查詢等操作呢。這時(shí)你發(fā)現(xiàn),如果要是TM像數(shù)據(jù)庫(kù)一樣就好了团赁,何苦來(lái)著還寫(xiě)map-reduce育拨。(當(dāng)然也很簡(jiǎn)單,但是你會(huì)發(fā)現(xiàn)spark sql更簡(jiǎn)單欢摄。人是懶惰的熬丧,你用慣了 scala你再回去用用java試試!)而且使用現(xiàn)成的開(kāi)源代碼更安全怀挠,說(shuō)不定你寫(xiě)一個(gè)map弄錯(cuò)了字段析蝴,讓你找bug找一天。

此處copy 介紹一下? rdd绿淋,DF(dataFrame) 闷畸,DS(dataset)區(qū)別:

? 出門右轉(zhuǎn)->? https://www.cnblogs.com/starwater/p/6841807.html

spark sql api document文檔有點(diǎn)長(zhǎng),介紹的有點(diǎn)啰嗦吞滞。我前后看了兩遍佑菩,覺(jué)得還是分享一下好,因?yàn)閯e人再去看也蠻浪費(fèi)時(shí)間的裁赠。

我們按照三步走:

1殿漠、數(shù)據(jù)怎么加載,加載方式佩捞;

2绞幌、怎么處理,有哪些函數(shù)接口失尖;

3啊奄、怎么存,有哪些格式掀潮!over(本文檔純屬使用文檔!關(guān)鍵也沒(méi)啥原理可講)


1琼富、數(shù)據(jù)加載仪吧。

加載數(shù)據(jù)初始步驟

如上圖,使用spark sql鞠眉,先申請(qǐng)一個(gè)sqlContext薯鼠。當(dāng)然我使用的是CHD jar包。你可以使用spark sql jar包效果一樣械蹋,申請(qǐng)方式是:

官方文檔

這里我們就按照我使用的jar包的函數(shù)接口使用出皇。上面我截圖 故意把 sqlcontext的函數(shù)接口截出來(lái)了,就是沒(méi)事可以去翻翻他的函數(shù)有哪些哗戈,都是干嘛的郊艘,這樣下次你就不會(huì)自己去想怎么寫(xiě)了。

spark sql通過(guò)read數(shù)據(jù),read下面有一大串讀數(shù)據(jù)指定數(shù)據(jù)格式方法纱注。

read小弟

你發(fā)現(xiàn)畏浆,有orc,json狞贱,text刻获。竟然還有jdbc。是不是發(fā)現(xiàn)新大陸了瞎嬉。也就是說(shuō)讀數(shù)據(jù)我們可以通過(guò)read想怎么讀就怎么讀蝎毡。讀出來(lái)的就是結(jié)構(gòu)化,除了text氧枣。上demo:

官方demo

sqlContext.read.orc("C:\\Users\\Admin\\Desktop\\out\\orc").show()

結(jié)果為:

個(gè)人demo(我命名的orc兩個(gè)字段名就是zhou|yue)

你會(huì)說(shuō)text怎么結(jié)構(gòu)化呢沐兵?這么玩就行。


var fields ="zhou|yue".split("\\|").map(x => {

StructField(x, DataTypes.createDecimalType(38, 2), true)

})

var rdd = sc.textFile("C:\\Users\\Admin\\Desktop\\test").map(x => {

var tmp = x.split("\\|")

Row(BigDecimal.apply(tmp(0), MathContext.UNLIMITED), BigDecimal.apply(tmp(1), MathContext.UNLIMITED))

})

var schema =StructType(fields)

var data = sqlContext.createDataFrame(rdd, schema)



如果是hive數(shù)據(jù)呢挑胸?

這么讀:



sqlContext.sql("select * " +" from " +databaseName.tableName)


mysql的呢:

mysql

讀數(shù)據(jù)大致就這么讀痒筒。這里給額外科普一下。否則可能你會(huì)遇到問(wèn)題或者bug(自建struct會(huì)用到)茬贵。

出門右轉(zhuǎn)左拐->https://blog.csdn.net/gangchengzhong/article/details/70153932

有些兄弟懶簿透,喜歡用case class,但是這個(gè)申明的類只能有22個(gè)字段有木有解藻。方法是有點(diǎn)老充,不過(guò)不簡(jiǎn)單了。

出門東拐螟左,東拐再東拐:https://blog.csdn.net/high2011/article/details/81032049

2啡浊、spark sql處理數(shù)據(jù)。

spark sql盡然是想像sql那樣用胶背,那當(dāng)然得支持sql的處理方式巷嚣。那么常用的幾個(gè)方法是。

select钳吟,filter廷粒,groupby,agg红且,as坝茎,join,count暇番,column等嗤放。CHD的方法解釋比較到位截個(gè)圖給你看:

你看 就差 把飯端起來(lái)喂你了。


所以 這里方法使用不寫(xiě)了壁酬,冗余次酌!你可以直接用idea打開(kāi)去看函數(shù)一個(gè)一個(gè)翻著看恨课。

3、存

存和read相對(duì)和措,那就是write庄呈。

write的方法有不少:

方法列表

從方法名字,我們就可以看出他們是干嘛的派阱。具體操作就不列了诬留。因?yàn)闆](méi)意思。所以這里不寫(xiě)贫母。

寫(xiě)寫(xiě)一些額外有用的東西文兑。

1
2

就是這兩張表。sql中的數(shù)據(jù)類型并不是和數(shù)據(jù)庫(kù)中的或者scala中完全對(duì)應(yīng)腺劣。有時(shí)你會(huì)發(fā)現(xiàn)報(bào) schema 吧啦吧啦 類型不能轉(zhuǎn)換成 吧啦吧啦類型绿贞。這時(shí)就是你使用的類型錯(cuò)誤導(dǎo)致的。所以好好研究一下這個(gè)表有需要橘原。好了今天就講到這里了籍铁,快下班了!所以后面寫(xiě)的有點(diǎn)急趾断,如有疑問(wèn)拒名!可以留言。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末芋酌,一起剝皮案震驚了整個(gè)濱河市增显,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌脐帝,老刑警劉巖同云,帶你破解...
    沈念sama閱讀 217,542評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異堵腹,居然都是意外死亡炸站,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門疚顷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)武契,“玉大人,你說(shuō)我怎么就攤上這事荡含。” “怎么了届垫?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,912評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵释液,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我装处,道長(zhǎng)误债,這世上最難降的妖魔是什么浸船? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,449評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮寝蹈,結(jié)果婚禮上李命,老公的妹妹穿的比我還像新娘。我一直安慰自己箫老,他們只是感情好封字,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著耍鬓,像睡著了一般阔籽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上牲蜀,一...
    開(kāi)封第一講書(shū)人閱讀 51,370評(píng)論 1 302
  • 那天笆制,我揣著相機(jī)與錄音,去河邊找鬼涣达。 笑死在辆,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的度苔。 我是一名探鬼主播匆篓,決...
    沈念sama閱讀 40,193評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼林螃!你這毒婦竟也來(lái)了奕删?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,074評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤疗认,失蹤者是張志新(化名)和其女友劉穎完残,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體横漏,經(jīng)...
    沈念sama閱讀 45,505評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡截珍,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了讲弄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片熔号。...
    茶點(diǎn)故事閱讀 39,841評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖素跺,靈堂內(nèi)的尸體忽然破棺而出二蓝,到底是詐尸還是另有隱情,我是刑警寧澤指厌,帶...
    沈念sama閱讀 35,569評(píng)論 5 345
  • 正文 年R本政府宣布刊愚,位于F島的核電站,受9級(jí)特大地震影響踩验,放射性物質(zhì)發(fā)生泄漏鸥诽。R本人自食惡果不足惜商玫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望牡借。 院中可真熱鬧拳昌,春花似錦、人聲如沸钠龙。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,783評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)俊鱼。三九已至刻像,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間并闲,已是汗流浹背细睡。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,918評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留帝火,地道東北人溜徙。 一個(gè)月前我還...
    沈念sama閱讀 47,962評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像犀填,于是被迫代替她去往敵國(guó)和親蠢壹。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容