本系列專屬github地址:https://github.com/ios122/spark_lagou
前言
我覺得如果動筆,就應(yīng)該努力地把要說的東西表達(dá)清楚.今后一段時間,嘗試下系列博客文章.簡單說,如果心里想表達(dá)想分享的,就適當(dāng)規(guī)劃組織下,使其相對自成體系,以便于感興趣但可能剛好某個領(lǐng)域還不是很熟的人,也能很好地入手.系列文章,我會努力避免過于主觀化的描述,同時吸取以往的經(jīng)驗(yàn),盡量給每個系列的文章都設(shè)置一個單獨(dú)的 github 項(xiàng)目,供查閱參考.
Spark 系列文章規(guī)劃
Spark系列,因?yàn)楸救瞬⒎枪┞氂诖笮蛿?shù)據(jù)公司,也未曾在較大數(shù)據(jù)集上實(shí)踐過,所以內(nèi)容可能僅供初級入門者參考.目前,我處理過的較大的數(shù)據(jù)集,也僅在百萬條左右,但是也不得不驚嘆 Spark 做為數(shù)據(jù)分析工具的便利性,100w條數(shù)據(jù),在3臺BMR服務(wù)器結(jié)點(diǎn)上,復(fù)雜查詢一般在十秒以內(nèi).從數(shù)據(jù)分析的工具角度,我覺得 Spark 還是有必要了解的,大多數(shù)時候,基于數(shù)據(jù)的多個維度分析出的結(jié)論,可能比某些抽象的統(tǒng)計(jì)數(shù)據(jù),能有說服力.
數(shù)據(jù)源: 拉勾網(wǎng) iOS 職位最近一個月的公開招聘信息
以拉勾網(wǎng) iOS 職位最近一個月的公開招聘信息作為樣本.這是一個樣本,到時我會具體說一下數(shù)據(jù)獲取的方法和思路,還會奉上可用的腳本.
數(shù)據(jù)分析工具:Spark.
Spark是主要分析工具.我前一段時間,看了那本<<Hadoop 權(quán)威指南>>,然后開始了Spark的學(xué)習(xí).自己感覺 Spark,可能更符合自己目前階段的需要--小規(guī)模數(shù)據(jù)的即時分析.
數(shù)據(jù)分析平臺: 百度BMR
我會直接基于百度BMR來分析數(shù)據(jù).至今,我沒有試過自己搭建spark開發(fā)環(huán)境,也暫無打算研究.因?yàn)槲矣X得,大數(shù)據(jù)的分析,硬件還是挺貴的,好在現(xiàn)在有云平臺,即開即用,用完釋放掉即可.還有一個原因是,單機(jī)版的Spark和分布式的Spark,某些函數(shù)的行為還是有差異的.我看阿里云,也有類似的大數(shù)據(jù)分析平臺,應(yīng)該也是可以的.
準(zhǔn)備事宜
實(shí)名認(rèn)證的百度開發(fā)者賬號,注冊請到 https://login.bce.baidu.com 因?yàn)楸仨毷菍?shí)名認(rèn)證的百度開發(fā)者賬號,才可以創(chuàng)建 BMR 實(shí)例,沒有賬號,可能會影響到你觀察文章的體驗(yàn).因?yàn)檫@個實(shí)名認(rèn)證要審核的,最好提前弄.
文章更新具體規(guī)劃
使用Spark分析拉勾網(wǎng)招聘信息(一):準(zhǔn)備工作
交代基本背景,動機(jī)與必要準(zhǔn)別事宜等,為進(jìn)一步文章鋪墊.
使用Spark分析拉勾網(wǎng)招聘信息(二): 獲取數(shù)據(jù)
使用腳本自動獲取數(shù)據(jù),會涉及數(shù)據(jù)源的分析,腳本編寫思路,以及一個最終可用的腳本和實(shí)際采集的完整數(shù)據(jù)附件.
使用Spark分析拉勾網(wǎng)招聘信息(三): BMR 入門
主要講解百度大數(shù)據(jù)平臺BMR的基礎(chǔ)操作與常用工具的使用.當(dāng)然電腦性能較為強(qiáng)悍的童鞋,可以自己安裝研究下Hadoop,Spark和Zeepline等工具.用BMR,比較省錢,按分鐘計(jì)費(fèi),一小時 2塊左右,我通常只是有感興趣的數(shù)據(jù)題材時才開啟.順便插一句,以數(shù)據(jù)的視角,自由組合維度來觀察某些自己關(guān)心的數(shù)據(jù),真的看出來許多刷新自己認(rèn)知的真實(shí).不過,考慮到工具的可擴(kuò)展性,我還是建議掌握下 BMR或者阿里的大數(shù)據(jù)平臺的基礎(chǔ)使用.
使用Spark分析拉勾網(wǎng)招聘信息(四): 幾個常用的腳本與圖片分析結(jié)果
這里,會結(jié)合數(shù)據(jù)結(jié)構(gòu),展示下數(shù)據(jù)分析與提取的基本思路,然后會選幾個角度分析下數(shù)據(jù).方法是根本,簡單了解下,再多看看 spark 和 scala 文檔,我相信大家是可以自由使用Spark來分析自己感興趣的數(shù)據(jù)的.
版權(quán)聲明: iOS122 顏風(fēng) 署名系列文章,每日 7:20 首發(fā)于微信公眾號 iOS122gg,其他平臺次日10點(diǎn)更新.除各大博客平臺的iOS122官方專欄外,其他任何用途的轉(zhuǎn)載與使用,請務(wù)必注明出處!