10個(gè)技巧碑幅，讓你快速掌握數(shù)據(jù)處理分析戴陡！

本文是一位工程師長期工作經(jīng)驗(yàn)的積累與總結(jié)。海量數(shù)據(jù)處理需要有效的方法和高超的技巧沟涨，沒有通用的處理方法恤批，但有通用的原理和規(guī)則。大圣眾包（www.dashengzb.cn）小編分享給大家裹赴，希望能在工作中幫到你們喜庞。

1.選用優(yōu)秀的數(shù)據(jù)庫工具

現(xiàn)在的數(shù)據(jù)庫工具廠家比較多，對海量數(shù)據(jù)的處理對所使用的數(shù)據(jù)庫工具要求比較高棋返，一般使用Oracle或者DB2延都，微軟公司SQLServer2005性能也不錯(cuò)。另外在BI領(lǐng)域：數(shù)據(jù)庫睛竣，數(shù)據(jù)倉庫晰房，多維數(shù)據(jù)庫，數(shù)據(jù)挖掘等相關(guān)工具也要進(jìn)行選擇酵颁，像好的ETL工具和好的OLAP工具都十分必要嫉你，例如Informatic，Eassbase等躏惋。筆者在實(shí)際數(shù)據(jù)分析項(xiàng)目中幽污，對每天6000萬條的日志數(shù)據(jù)進(jìn)行處理，使用SQLServer2000需要花費(fèi)6小時(shí)簿姨，而使用SQLServer2005則只需要花費(fèi)3小時(shí)距误。

2.編寫優(yōu)良的程序代碼

處理數(shù)據(jù)離不開優(yōu)秀的程序代碼，尤其在進(jìn)行復(fù)雜數(shù)據(jù)處理時(shí)扁位，必須使用程序准潭。好的程序代碼對數(shù)據(jù)的處理至關(guān)重要，這不僅僅是數(shù)據(jù)處理準(zhǔn)確度的問題域仇，更是數(shù)據(jù)處理效率的問題刑然。良好的程序代碼應(yīng)該包含好的算法，包含好的處理流程暇务，包含好的效率泼掠，包含好的異常處理機(jī)制等怔软。

3.對海量數(shù)據(jù)進(jìn)行分區(qū)操作

對海量數(shù)據(jù)進(jìn)行分區(qū)操作十分必要，例如針對按年份存取的數(shù)據(jù)择镇，我們可以按年進(jìn)行分區(qū)挡逼，不同的數(shù)據(jù)庫有不同的分區(qū)方式，不過處理機(jī)制大體相同腻豌。例如SQLServer的數(shù)據(jù)庫分區(qū)是將不同的數(shù)據(jù)存于不同的文件組下家坎，而不同的文件組存于不同的磁盤分區(qū)下，這樣將數(shù)據(jù)分散開吝梅，減小磁盤I/O虱疏，減小了系統(tǒng)負(fù)荷，而且還可以將日志苏携，索引等放于不同的分區(qū)下订框。

4.建立廣泛的索引

對海量的數(shù)據(jù)處理，對大表建立索引是必行的兜叨，建立索引要考慮到具體情況，例如針對大表的分組衩侥、排序等字段国旷，都要建立相應(yīng)索引，一般還可以建立復(fù)合索引茫死，對經(jīng)常插入的表則建立索引時(shí)要小心跪但，筆者在處理數(shù)據(jù)時(shí)，曾經(jīng)在一個(gè)ETL流程中峦萎，當(dāng)插入表時(shí)屡久，首先刪除索引，然后插入完畢爱榔，建立索引被环，并實(shí)施聚合操作，聚合完成后详幽，再次插入前還是刪除索引筛欢，所以索引要用到好的時(shí)機(jī)，索引的填充因子和聚集唇聘、非聚集索引都要考慮版姑。

5.建立緩存機(jī)制

當(dāng)數(shù)據(jù)量增加時(shí)，一般的處理工具都要考慮到緩存問題迟郎。緩存大小設(shè)置的好差也關(guān)系到數(shù)據(jù)處理的成敗剥险，例如，筆者在處理2億條數(shù)據(jù)聚合操作時(shí)宪肖，緩存設(shè)置為100000條/Buffer表制，這對于這個(gè)級別的數(shù)據(jù)量是可行的健爬。

6.加大虛擬內(nèi)存

如果系統(tǒng)資源有限，內(nèi)存提示不足夫凸，則可以靠增加虛擬內(nèi)存來解決浑劳。筆者在實(shí)際項(xiàng)目中曾經(jīng)遇到針對18億條的數(shù)據(jù)進(jìn)行處理，內(nèi)存為1GB夭拌，1個(gè)P42.4G的CPU魔熏，對這么大的數(shù)據(jù)量進(jìn)行聚合操作是有問題的，提示內(nèi)存不足鸽扁，那么采用了加大虛擬內(nèi)存的方法來解決蒜绽，在6塊磁盤分區(qū)上分別建立了6個(gè)4096M的磁盤分區(qū)，用于虛擬內(nèi)存桶现，這樣虛擬的內(nèi)存則增加為4096*6+1024=25600M躲雅，解決了數(shù)據(jù)處理中的內(nèi)存不足問題。

7.分批處理

海量數(shù)據(jù)處理難因?yàn)閿?shù)據(jù)量大骡和，那么解決海量數(shù)據(jù)處理難的問題其中一個(gè)技巧是減少數(shù)據(jù)量相赁。可以對海量數(shù)據(jù)分批處理慰于，然后處理后的數(shù)據(jù)再進(jìn)行合并操作钮科，這樣逐個(gè)擊破，有利于小數(shù)據(jù)量的處理婆赠，不至于面對大數(shù)據(jù)量帶來的問題绵脯，不過這種方法也要因時(shí)因勢進(jìn)行，如果不允許拆分?jǐn)?shù)據(jù)休里，還需要另想辦法蛆挫。不過一般的數(shù)據(jù)按天、按月妙黍、按年等存儲的悴侵，都可以采用先分后合的方法，對數(shù)據(jù)進(jìn)行分開處理拭嫁。

8.使用臨時(shí)表和中間表

數(shù)據(jù)量增加時(shí)畜挨，處理中要考慮提前匯總。這樣做的目的是化整為零噩凹，大表變小表巴元，分塊處理完成后，再利用一定的規(guī)則進(jìn)行合并驮宴，處理過程中的臨時(shí)表的使用和中間結(jié)果的保存都非常重要逮刨，如果對于超海量的數(shù)據(jù)，大表處理不了，只能拆分為多個(gè)小表修己。如果處理過程中需要多步匯總操作恢总，可按匯總步驟一步步來，不要一條語句完成睬愤，一口氣吃掉一個(gè)胖子片仿。

9.優(yōu)化查詢SQL語句

在對海量數(shù)據(jù)進(jìn)行查詢處理過程中，查詢的SQL語句的性能對查詢效率的影響是非常大的尤辱，編寫高效優(yōu)良的SQL腳本和存儲過程是數(shù)據(jù)庫工作人員的職責(zé)砂豌，也是檢驗(yàn)數(shù)據(jù)庫工作人員水平的一個(gè)標(biāo)準(zhǔn)，在對SQL語句的編寫過程中光督，例如減少關(guān)聯(lián)阳距，少用或不用游標(biāo)，設(shè)計(jì)好高效的數(shù)據(jù)庫表結(jié)構(gòu)等都十分必要结借。筆者在工作中試著對1億行的數(shù)據(jù)使用游標(biāo)筐摘，運(yùn)行3個(gè)小時(shí)沒有出結(jié)果，這是一定要改用程序處理了船老。

10.使用文本格式進(jìn)行處理

對一般的數(shù)據(jù)處理可以使用數(shù)據(jù)庫咖熟，如果對復(fù)雜的數(shù)據(jù)處理，必須借助程序柳畔，那么在程序操作數(shù)據(jù)庫和程序操作文本之間選擇球恤，是一定要選擇程序操作文本的，原因?yàn)椋撼绦虿僮魑谋舅俣瓤燧┠鳎粚ξ谋具M(jìn)行處理不容易出錯(cuò)；文本的存儲不受限制等堪置。例如一般的海量的網(wǎng)絡(luò)日志都是文本格式或者csv格式（文本格式）躬存，對它進(jìn)行處理牽扯到數(shù)據(jù)清洗，是要利用程序進(jìn)行處理的舀锨，而不建議導(dǎo)入數(shù)據(jù)庫再做清洗岭洲。

原文地址：http://www.dashengzb.cn/articles/a-290.html

（更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書坎匿，可添加個(gè)人微信號（dashenghuaer))

最后編輯于：2017.12.04 08:49:34

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末盾剩，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子替蔬，更是在濱河造成了極大的恐慌告私，老刑警劉巖，帶你破解...
沈念sama閱讀 212,454評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件承桥，死亡現(xiàn)場離奇詭異驻粟，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)凶异，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,553評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門蜀撑，熙熙樓的掌柜王于貴愁眉苦臉地迎上來挤巡，“玉大人，你說我怎么就攤上這事酷麦】蟊埃” “怎么了？”我有些...
開封第一講書人閱讀 157,921評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵沃饶，是天一觀的道長母廷。經(jīng)常有香客問我，道長绍坝，這世上最難降的妖魔是什么徘意？我笑而不...
開封第一講書人閱讀 56,648評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮轩褐，結(jié)果婚禮上椎咧，老公的妹妹穿的比我還像新娘。我一直安慰自己把介，他們只是感情好勤讽，可當(dāng)我...
茶點(diǎn)故事閱讀 65,770評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著拗踢，像睡著了一般脚牍。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上巢墅，一...
開封第一講書人閱讀 49,950評論 1贊 291
城市分裂傳說
那天诸狭，我揣著相機(jī)與錄音，去河邊找鬼君纫。笑死驯遇，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的蓄髓。我是一名探鬼主播叉庐，決...
沈念sama閱讀 39,090評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼会喝！你這毒婦竟也來了陡叠？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,817評論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤肢执，失蹤者是張志新（化名）和其女友劉穎枉阵，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體预茄，經(jīng)...
沈念sama閱讀 44,275評論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡岭妖，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,592評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昵慌。...
茶點(diǎn)故事閱讀 38,724評論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡假夺，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出斋攀，到底是詐尸還是另有隱情已卷，我是刑警寧澤，帶...
沈念sama閱讀 34,409評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布淳蔼，位于F島的核電站侧蘸，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏鹉梨。R本人自食惡果不足惜讳癌，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,052評論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望存皂。院中可真熱鬧晌坤，春花似錦、人聲如沸旦袋。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,815評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽疤孕。三九已至商乎，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間祭阀，已是汗流浹背鹉戚。一陣腳步聲響...
開封第一講書人閱讀 32,043評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留专控，地道東北人抹凳。一個(gè)月前我還...
沈念sama閱讀 46,503評論 2贊 361
代替公主和親
正文我出身青樓，卻偏偏與公主長得像踩官，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子境输，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,627評論 2贊 350

10個(gè)技巧蛤高，讓你快速掌握數(shù)據(jù)處理分析！

10個(gè)技巧碑幅，讓你快速掌握數(shù)據(jù)處理分析戴陡！

推薦閱讀更多精彩內(nèi)容