開(kāi)局一張圖霞溪,內(nèi)容全靠吹咙冗。(本圖純copy)
寫(xiě)了spark程序已經(jīng)半年有余表锻,越學(xué)越覺(jué)得自己啥也沒(méi)學(xué)到。決定把spark沾邊的全搞一下乞娄。
首選spark sql瞬逊,為啥咧?因?yàn)槲矣玫搅?>_-> 2333....
我們都曉得仪或,spark核心是rdd确镊,spark sql同理!只是在這里他不叫rdd范删,而是叫dataFrame或者叫dataSet蕾域。如果你只想對(duì)著demo擼代碼,那么直接跳過(guò)這么多廢話到旦,直接下面代碼旨巷,如果有興趣,聽(tīng)聽(tīng)本司機(jī)姍姍添忘。
你可能會(huì)想問(wèn)采呐,spark sql干嘛的。我理解是:把數(shù)據(jù)結(jié)構(gòu)化處理搁骑。那rdd不是的嗎斧吐?當(dāng)然是。但是兩個(gè)使用場(chǎng)景不同仲器。(這里解釋有點(diǎn)不對(duì)煤率,別較真。rdd比較復(fù)雜乏冀,這里只用它一個(gè)用途來(lái)理解它蝶糯。)
通常spark 處理流程是 sc.textFile()//或者其他接口函數(shù)讀取數(shù)據(jù) -> rdd迭代處理->放到另一個(gè)地方(可以是控制臺(tái))? (當(dāng)然所有程序到最后都是干這事,實(shí)在無(wú)聊辆沦。)
這里sc讀數(shù)據(jù)是按行讀的昼捍。并不區(qū)分字段和字段類型。這是rdd初始性質(zhì)众辨。當(dāng)然你可以使用其他格式比如avro等序列化格式端三,這時(shí)讀是結(jié)構(gòu)化數(shù)據(jù)。如果你只是對(duì)數(shù)據(jù)過(guò)濾處理那么使用rdd一點(diǎn)毛病都沒(méi)有鹃彻。那么如果你想對(duì)數(shù)據(jù)做過(guò)濾郊闯、分組和統(tǒng)計(jì)查詢等操作呢。這時(shí)你發(fā)現(xiàn),如果要是TM像數(shù)據(jù)庫(kù)一樣就好了团赁,何苦來(lái)著還寫(xiě)map-reduce育拨。(當(dāng)然也很簡(jiǎn)單,但是你會(huì)發(fā)現(xiàn)spark sql更簡(jiǎn)單欢摄。人是懶惰的熬丧,你用慣了 scala你再回去用用java試試!)而且使用現(xiàn)成的開(kāi)源代碼更安全怀挠,說(shuō)不定你寫(xiě)一個(gè)map弄錯(cuò)了字段析蝴,讓你找bug找一天。
此處copy 介紹一下? rdd绿淋,DF(dataFrame) 闷畸,DS(dataset)區(qū)別:
? 出門右轉(zhuǎn)->? https://www.cnblogs.com/starwater/p/6841807.html
spark sql api document文檔有點(diǎn)長(zhǎng),介紹的有點(diǎn)啰嗦吞滞。我前后看了兩遍佑菩,覺(jué)得還是分享一下好,因?yàn)閯e人再去看也蠻浪費(fèi)時(shí)間的裁赠。
我們按照三步走:
1殿漠、數(shù)據(jù)怎么加載,加載方式佩捞;
2绞幌、怎么處理,有哪些函數(shù)接口失尖;
3啊奄、怎么存,有哪些格式掀潮!over(本文檔純屬使用文檔!關(guān)鍵也沒(méi)啥原理可講)
1琼富、數(shù)據(jù)加載仪吧。
如上圖,使用spark sql鞠眉,先申請(qǐng)一個(gè)sqlContext薯鼠。當(dāng)然我使用的是CHD jar包。你可以使用spark sql jar包效果一樣械蹋,申請(qǐng)方式是:
這里我們就按照我使用的jar包的函數(shù)接口使用出皇。上面我截圖 故意把 sqlcontext的函數(shù)接口截出來(lái)了,就是沒(méi)事可以去翻翻他的函數(shù)有哪些哗戈,都是干嘛的郊艘,這樣下次你就不會(huì)自己去想怎么寫(xiě)了。
spark sql通過(guò)read數(shù)據(jù),read下面有一大串讀數(shù)據(jù)指定數(shù)據(jù)格式方法纱注。
你發(fā)現(xiàn)畏浆,有orc,json狞贱,text刻获。竟然還有jdbc。是不是發(fā)現(xiàn)新大陸了瞎嬉。也就是說(shuō)讀數(shù)據(jù)我們可以通過(guò)read想怎么讀就怎么讀蝎毡。讀出來(lái)的就是結(jié)構(gòu)化,除了text氧枣。上demo:
sqlContext.read.orc("C:\\Users\\Admin\\Desktop\\out\\orc").show()
結(jié)果為:
你會(huì)說(shuō)text怎么結(jié)構(gòu)化呢沐兵?這么玩就行。
var fields ="zhou|yue".split("\\|").map(x => {
StructField(x, DataTypes.createDecimalType(38, 2), true)
})
var rdd = sc.textFile("C:\\Users\\Admin\\Desktop\\test").map(x => {
var tmp = x.split("\\|")
Row(BigDecimal.apply(tmp(0), MathContext.UNLIMITED), BigDecimal.apply(tmp(1), MathContext.UNLIMITED))
})
var schema =StructType(fields)
var data = sqlContext.createDataFrame(rdd, schema)
如果是hive數(shù)據(jù)呢挑胸?
這么讀:
sqlContext.sql("select * " +" from " +databaseName.tableName)
mysql的呢:
讀數(shù)據(jù)大致就這么讀痒筒。這里給額外科普一下。否則可能你會(huì)遇到問(wèn)題或者bug(自建struct會(huì)用到)茬贵。
出門右轉(zhuǎn)左拐->https://blog.csdn.net/gangchengzhong/article/details/70153932
有些兄弟懶簿透,喜歡用case class,但是這個(gè)申明的類只能有22個(gè)字段有木有解藻。方法是有點(diǎn)老充,不過(guò)不簡(jiǎn)單了。
出門東拐螟左,東拐再東拐:https://blog.csdn.net/high2011/article/details/81032049
2啡浊、spark sql處理數(shù)據(jù)。
spark sql盡然是想像sql那樣用胶背,那當(dāng)然得支持sql的處理方式巷嚣。那么常用的幾個(gè)方法是。
select钳吟,filter廷粒,groupby,agg红且,as坝茎,join,count暇番,column等嗤放。CHD的方法解釋比較到位截個(gè)圖給你看:
所以 這里方法使用不寫(xiě)了壁酬,冗余次酌!你可以直接用idea打開(kāi)去看函數(shù)一個(gè)一個(gè)翻著看恨课。
3、存
存和read相對(duì)和措,那就是write庄呈。
write的方法有不少:
從方法名字,我們就可以看出他們是干嘛的派阱。具體操作就不列了诬留。因?yàn)闆](méi)意思。所以這里不寫(xiě)贫母。
寫(xiě)寫(xiě)一些額外有用的東西文兑。
就是這兩張表。sql中的數(shù)據(jù)類型并不是和數(shù)據(jù)庫(kù)中的或者scala中完全對(duì)應(yīng)腺劣。有時(shí)你會(huì)發(fā)現(xiàn)報(bào) schema 吧啦吧啦 類型不能轉(zhuǎn)換成 吧啦吧啦類型绿贞。這時(shí)就是你使用的類型錯(cuò)誤導(dǎo)致的。所以好好研究一下這個(gè)表有需要橘原。好了今天就講到這里了籍铁,快下班了!所以后面寫(xiě)的有點(diǎn)急趾断,如有疑問(wèn)拒名!可以留言。