Spark+MySQL做數(shù)據(jù)分析

任務：

1. 基礎數(shù)據(jù)是Wikipedia Page Counts. (>1TB compressed, available since 2008)澎埠。

2. 字段包含

1) project (i.e. “en”, “fr”, etc, which is usually a language)

2) title of the page (uri), urlencoded

3) number of requests

4) size of the content returned

3. 文件名是日期+時間（詳細到小時, 例如2008013101是2008年1月31日1點到2點的記錄）

4. 目標是

1) 統(tǒng)計每天被請求最多的10個英文wikipedia頁( top 10 pages by the number of requests per day in English Wikipedia)

2) 支持任意單詞搜索饱普，以完成"比較一下關于'myspace'的頁面總請求數(shù)與關于'facebook'的頁面總請求數(shù)"這樣的任務胯究。

單獨用MySQL處理的流程如下

1. 解壓縮文件(>10TB)，把數(shù)據(jù)加載到臨時表中,并根據(jù)文件名追加日期字段适室。

2. 聚合后插入最終表。

3. 解碼title(使用UDF）

那么滔以，整個過程需要多長時間呢？

According to my calculations it should take > 1 month to do the whole pipeline for 6 years of data (this time does not include the uncompress time and does not include the load time depreciation as the table get bigger and bigger and indexes need to be updated). There are a lots of things we can do here to speed it up of course, i.e., load into different MySQL instances, load into MEMORY table first, then group by into InnoDB, etc.

比較快速的做法是使用pyspark操作歼捐，代碼如下

(包含的功能是讀文件何陆，對url的訪問次數(shù)按天累加，然后更新的MySQL)

The script took about an hour on 3 boxes to process 1 month of data and load theaggregated datato MySQL (single instance). We can estimate that to load all 6 years (aggregated) to MySQL is ~3 days.

因為使用了Spark RDD Transformation窥岩，處理時間從原來的1個月縮短到3天甲献。

其他的性能改善還包括

1) group_res.write.jdbc(url=mysql_url, table=”wikistats.wikistats_by_day_spark”, mode=”append”)

Spark是在使用多線程的方式更新數(shù)據(jù)庫。

2) group_res.saveAsParquetFile("/ssd/wikistats_parquet_bydate/mydate=" + mydate)

這是在把sparkRDD存為parquet file (it can be saved to a directory to HDFS)颂翼。parquet file的作用是替代mysql做查詢晃洒。從下面的截圖可以看出，使用mysql查詢10個訪問最多的網(wǎng)頁需要1小時22分鐘朦乏，使用parquet file時需要20多分鐘球及。

mysql

parquet

原帖地址：https://www.percona.com/blog/2015/10/07/using-apache-spark-mysql-data-analysis/

最后編輯于：2017.12.06 07:18:49

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市呻疹，隨后出現(xiàn)的幾起案子吃引，更是在濱河造成了極大的恐慌，老刑警劉巖刽锤，帶你破解...
沈念sama閱讀 212,718評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件镊尺，死亡現(xiàn)場離奇詭異，居然都是意外死亡并思，警方通過查閱死者的電腦和手機庐氮，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,683評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來宋彼，“玉大人弄砍，你說我怎么就攤上這事∈涮椋” “怎么了音婶？”我有些...
開封第一講書人閱讀 158,207評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長莱坎。經(jīng)常有香客問我衣式，道長，這世上最難降的妖魔是什么型奥？我笑而不...
開封第一講書人閱讀 56,755評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任瞳收，我火速辦了婚禮，結(jié)果婚禮上厢汹，老公的妹妹穿的比我還像新娘。我一直安慰自己谐宙，他們只是感情好烫葬，可當我...
茶點故事閱讀 65,862評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般搭综。火紅的嫁衣襯著肌膚如雪垢箕。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 50,050評論 1贊 291
城市分裂傳說
那天兑巾，我揣著相機與錄音条获，去河邊找鬼。笑死蒋歌，一個胖子當著我的面吹牛帅掘，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播堂油，決...
沈念sama閱讀 39,136評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼修档，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了府框？” 一聲冷哼從身側(cè)響起吱窝，我...
開封第一講書人閱讀 37,882評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎迫靖，沒想到半個月后院峡，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,330評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡系宜，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,651評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年照激，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜈首。...
茶點故事閱讀 38,789評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡实抡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出欢策，到底是詐尸還是另有隱情吆寨，我是刑警寧澤，帶...
沈念sama閱讀 34,477評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布踩寇，位于F島的核電站啄清，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏俺孙。R本人自食惡果不足惜辣卒，卻給世界環(huán)境...
茶點故事閱讀 40,135評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望睛榄。院中可真熱鬧荣茫，春花似錦、人聲如沸场靴。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,864評論 0贊 21
一樁弒父案港准，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至咧欣，卻和暖如春浅缸，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背魄咕。一陣腳步聲響...
開封第一講書人閱讀 32,099評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工衩椒，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人哮兰。一個月前我還...
沈念sama閱讀 46,598評論 2贊 362
代替公主和親
正文我出身青樓毛萌，卻偏偏與公主長得像，于是被迫代替她去往敵國和親奠蹬。傳聞我的和親對象是個殘疾皇子朝聋，可洞房花燭夜當晚...
茶點故事閱讀 43,697評論 2贊 351

Spark+MySQL做數(shù)據(jù)分析

推薦閱讀更多精彩內(nèi)容