10個(gè)技巧碑幅,讓你快速掌握數(shù)據(jù)處理分析戴陡!

本文是一位工程師長期工作經(jīng)驗(yàn)的積累與總結(jié)。海量數(shù)據(jù)處理需要有效的方法和高超的技巧沟涨,沒有通用的處理方法恤批,但有通用的原理和規(guī)則。大圣眾包(www.dashengzb.cn)小編分享給大家裹赴,希望能在工作中幫到你們喜庞。

1.選用優(yōu)秀的數(shù)據(jù)庫工具

現(xiàn)在的數(shù)據(jù)庫工具廠家比較多,對海量數(shù)據(jù)的處理對所使用的數(shù)據(jù)庫工具要求比較高棋返,一般使用Oracle或者DB2延都,微軟公司SQLServer2005性能也不錯(cuò)。另外在BI領(lǐng)域:數(shù)據(jù)庫睛竣,數(shù)據(jù)倉庫晰房,多維數(shù)據(jù)庫,數(shù)據(jù)挖掘等相關(guān)工具也要進(jìn)行選擇酵颁,像好的ETL工具和好的OLAP工具都十分必要嫉你,例如Informatic,Eassbase等躏惋。筆者在實(shí)際數(shù)據(jù)分析項(xiàng)目中幽污,對每天6000萬條的日志數(shù)據(jù)進(jìn)行處理,使用SQLServer2000需要花費(fèi)6小時(shí)簿姨,而使用SQLServer2005則只需要花費(fèi)3小時(shí)距误。

2.編寫優(yōu)良的程序代碼

處理數(shù)據(jù)離不開優(yōu)秀的程序代碼,尤其在進(jìn)行復(fù)雜數(shù)據(jù)處理時(shí)扁位,必須使用程序准潭。好的程序代碼對數(shù)據(jù)的處理至關(guān)重要,這不僅僅是數(shù)據(jù)處理準(zhǔn)確度的問題域仇,更是數(shù)據(jù)處理效率的問題刑然。良好的程序代碼應(yīng)該包含好的算法,包含好的處理流程暇务,包含好的效率泼掠,包含好的異常處理機(jī)制等怔软。

3.對海量數(shù)據(jù)進(jìn)行分區(qū)操作

對海量數(shù)據(jù)進(jìn)行分區(qū)操作十分必要,例如針對按年份存取的數(shù)據(jù)择镇,我們可以按年進(jìn)行分區(qū)挡逼,不同的數(shù)據(jù)庫有不同的分區(qū)方式,不過處理機(jī)制大體相同腻豌。例如SQLServer的數(shù)據(jù)庫分區(qū)是將不同的數(shù)據(jù)存于不同的文件組下家坎,而不同的文件組存于不同的磁盤分區(qū)下,這樣將數(shù)據(jù)分散開吝梅,減小磁盤I/O虱疏,減小了系統(tǒng)負(fù)荷,而且還可以將日志苏携,索引等放于不同的分區(qū)下订框。

4.建立廣泛的索引

對海量的數(shù)據(jù)處理,對大表建立索引是必行的兜叨,建立索引要考慮到具體情況,例如針對大表的分組衩侥、排序等字段国旷,都要建立相應(yīng)索引,一般還可以建立復(fù)合索引茫死,對經(jīng)常插入的表則建立索引時(shí)要小心跪但,筆者在處理數(shù)據(jù)時(shí),曾經(jīng)在一個(gè)ETL流程中峦萎,當(dāng)插入表時(shí)屡久,首先刪除索引,然后插入完畢爱榔,建立索引被环,并實(shí)施聚合操作,聚合完成后详幽,再次插入前還是刪除索引筛欢,所以索引要用到好的時(shí)機(jī),索引的填充因子和聚集唇聘、非聚集索引都要考慮版姑。

5.建立緩存機(jī)制

當(dāng)數(shù)據(jù)量增加時(shí),一般的處理工具都要考慮到緩存問題迟郎。緩存大小設(shè)置的好差也關(guān)系到數(shù)據(jù)處理的成敗剥险,例如,筆者在處理2億條數(shù)據(jù)聚合操作時(shí)宪肖,緩存設(shè)置為100000條/Buffer表制,這對于這個(gè)級別的數(shù)據(jù)量是可行的健爬。

6.加大虛擬內(nèi)存

如果系統(tǒng)資源有限,內(nèi)存提示不足夫凸,則可以靠增加虛擬內(nèi)存來解決浑劳。筆者在實(shí)際項(xiàng)目中曾經(jīng)遇到針對18億條的數(shù)據(jù)進(jìn)行處理,內(nèi)存為1GB夭拌,1個(gè)P42.4G的CPU魔熏,對這么大的數(shù)據(jù)量進(jìn)行聚合操作是有問題的,提示內(nèi)存不足鸽扁,那么采用了加大虛擬內(nèi)存的方法來解決蒜绽,在6塊磁盤分區(qū)上分別建立了6個(gè)4096M的磁盤分區(qū),用于虛擬內(nèi)存桶现,這樣虛擬的內(nèi)存則增加為4096*6+1024=25600M躲雅,解決了數(shù)據(jù)處理中的內(nèi)存不足問題。

7.分批處理

海量數(shù)據(jù)處理難因?yàn)閿?shù)據(jù)量大骡和,那么解決海量數(shù)據(jù)處理難的問題其中一個(gè)技巧是減少數(shù)據(jù)量相赁。可以對海量數(shù)據(jù)分批處理慰于,然后處理后的數(shù)據(jù)再進(jìn)行合并操作钮科,這樣逐個(gè)擊破,有利于小數(shù)據(jù)量的處理婆赠,不至于面對大數(shù)據(jù)量帶來的問題绵脯,不過這種方法也要因時(shí)因勢進(jìn)行,如果不允許拆分?jǐn)?shù)據(jù)休里,還需要另想辦法蛆挫。不過一般的數(shù)據(jù)按天、按月妙黍、按年等存儲的悴侵,都可以采用先分后合的方法,對數(shù)據(jù)進(jìn)行分開處理拭嫁。

8.使用臨時(shí)表和中間表

數(shù)據(jù)量增加時(shí)畜挨,處理中要考慮提前匯總。這樣做的目的是化整為零噩凹,大表變小表巴元,分塊處理完成后,再利用一定的規(guī)則進(jìn)行合并驮宴,處理過程中的臨時(shí)表的使用和中間結(jié)果的保存都非常重要逮刨,如果對于超海量的數(shù)據(jù),大表處理不了,只能拆分為多個(gè)小表修己。如果處理過程中需要多步匯總操作恢总,可按匯總步驟一步步來,不要一條語句完成睬愤,一口氣吃掉一個(gè)胖子片仿。

9.優(yōu)化查詢SQL語句

在對海量數(shù)據(jù)進(jìn)行查詢處理過程中,查詢的SQL語句的性能對查詢效率的影響是非常大的尤辱,編寫高效優(yōu)良的SQL腳本和存儲過程是數(shù)據(jù)庫工作人員的職責(zé)砂豌,也是檢驗(yàn)數(shù)據(jù)庫工作人員水平的一個(gè)標(biāo)準(zhǔn),在對SQL語句的編寫過程中光督,例如減少關(guān)聯(lián)阳距,少用或不用游標(biāo),設(shè)計(jì)好高效的數(shù)據(jù)庫表結(jié)構(gòu)等都十分必要结借。筆者在工作中試著對1億行的數(shù)據(jù)使用游標(biāo)筐摘,運(yùn)行3個(gè)小時(shí)沒有出結(jié)果,這是一定要改用程序處理了船老。

10.使用文本格式進(jìn)行處理

對一般的數(shù)據(jù)處理可以使用數(shù)據(jù)庫咖熟,如果對復(fù)雜的數(shù)據(jù)處理,必須借助程序柳畔,那么在程序操作數(shù)據(jù)庫和程序操作文本之間選擇球恤,是一定要選擇程序操作文本的,原因?yàn)椋撼绦虿僮魑谋舅俣瓤燧┠鳎粚ξ谋具M(jìn)行處理不容易出錯(cuò);文本的存儲不受限制等堪置。例如一般的海量的網(wǎng)絡(luò)日志都是文本格式或者csv格式(文本格式)躬存,對它進(jìn)行處理牽扯到數(shù)據(jù)清洗,是要利用程序進(jìn)行處理的舀锨,而不建議導(dǎo)入數(shù)據(jù)庫再做清洗岭洲。

原文地址:http://www.dashengzb.cn/articles/a-290.html

(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書坎匿,可添加個(gè)人微信號(dashenghuaer))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末盾剩,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子替蔬,更是在濱河造成了極大的恐慌告私,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件承桥,死亡現(xiàn)場離奇詭異驻粟,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)凶异,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進(jìn)店門蜀撑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來挤巡,“玉大人,你說我怎么就攤上這事酷麦】蟊埃” “怎么了?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵沃饶,是天一觀的道長母廷。 經(jīng)常有香客問我,道長绍坝,這世上最難降的妖魔是什么徘意? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮轩褐,結(jié)果婚禮上椎咧,老公的妹妹穿的比我還像新娘。我一直安慰自己把介,他們只是感情好勤讽,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著拗踢,像睡著了一般脚牍。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上巢墅,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天诸狭,我揣著相機(jī)與錄音,去河邊找鬼君纫。 笑死驯遇,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蓄髓。 我是一名探鬼主播叉庐,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼会喝!你這毒婦竟也來了陡叠?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤肢执,失蹤者是張志新(化名)和其女友劉穎枉阵,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體预茄,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡岭妖,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昵慌。...
    茶點(diǎn)故事閱讀 38,724評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡假夺,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出斋攀,到底是詐尸還是另有隱情已卷,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布淳蔼,位于F島的核電站侧蘸,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏鹉梨。R本人自食惡果不足惜讳癌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望存皂。 院中可真熱鬧晌坤,春花似錦、人聲如沸旦袋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽疤孕。三九已至商乎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間祭阀,已是汗流浹背鹉戚。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留专控,地道東北人抹凳。 一個(gè)月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像踩官,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子境输,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內(nèi)容