本文是一位工程師長期工作經(jīng)驗(yàn)的積累與總結(jié)。海量數(shù)據(jù)處理需要有效的方法和高超的技巧沟涨,沒有通用的處理方法恤批,但有通用的原理和規(guī)則。大圣眾包(www.dashengzb.cn)小編分享給大家裹赴,希望能在工作中幫到你們喜庞。
1.選用優(yōu)秀的數(shù)據(jù)庫工具
現(xiàn)在的數(shù)據(jù)庫工具廠家比較多,對海量數(shù)據(jù)的處理對所使用的數(shù)據(jù)庫工具要求比較高棋返,一般使用Oracle或者DB2延都,微軟公司SQLServer2005性能也不錯(cuò)。另外在BI領(lǐng)域:數(shù)據(jù)庫睛竣,數(shù)據(jù)倉庫晰房,多維數(shù)據(jù)庫,數(shù)據(jù)挖掘等相關(guān)工具也要進(jìn)行選擇酵颁,像好的ETL工具和好的OLAP工具都十分必要嫉你,例如Informatic,Eassbase等躏惋。筆者在實(shí)際數(shù)據(jù)分析項(xiàng)目中幽污,對每天6000萬條的日志數(shù)據(jù)進(jìn)行處理,使用SQLServer2000需要花費(fèi)6小時(shí)簿姨,而使用SQLServer2005則只需要花費(fèi)3小時(shí)距误。
2.編寫優(yōu)良的程序代碼
處理數(shù)據(jù)離不開優(yōu)秀的程序代碼,尤其在進(jìn)行復(fù)雜數(shù)據(jù)處理時(shí)扁位,必須使用程序准潭。好的程序代碼對數(shù)據(jù)的處理至關(guān)重要,這不僅僅是數(shù)據(jù)處理準(zhǔn)確度的問題域仇,更是數(shù)據(jù)處理效率的問題刑然。良好的程序代碼應(yīng)該包含好的算法,包含好的處理流程暇务,包含好的效率泼掠,包含好的異常處理機(jī)制等怔软。
3.對海量數(shù)據(jù)進(jìn)行分區(qū)操作
對海量數(shù)據(jù)進(jìn)行分區(qū)操作十分必要,例如針對按年份存取的數(shù)據(jù)择镇,我們可以按年進(jìn)行分區(qū)挡逼,不同的數(shù)據(jù)庫有不同的分區(qū)方式,不過處理機(jī)制大體相同腻豌。例如SQLServer的數(shù)據(jù)庫分區(qū)是將不同的數(shù)據(jù)存于不同的文件組下家坎,而不同的文件組存于不同的磁盤分區(qū)下,這樣將數(shù)據(jù)分散開吝梅,減小磁盤I/O虱疏,減小了系統(tǒng)負(fù)荷,而且還可以將日志苏携,索引等放于不同的分區(qū)下订框。
4.建立廣泛的索引
對海量的數(shù)據(jù)處理,對大表建立索引是必行的兜叨,建立索引要考慮到具體情況,例如針對大表的分組衩侥、排序等字段国旷,都要建立相應(yīng)索引,一般還可以建立復(fù)合索引茫死,對經(jīng)常插入的表則建立索引時(shí)要小心跪但,筆者在處理數(shù)據(jù)時(shí),曾經(jīng)在一個(gè)ETL流程中峦萎,當(dāng)插入表時(shí)屡久,首先刪除索引,然后插入完畢爱榔,建立索引被环,并實(shí)施聚合操作,聚合完成后详幽,再次插入前還是刪除索引筛欢,所以索引要用到好的時(shí)機(jī),索引的填充因子和聚集唇聘、非聚集索引都要考慮版姑。
5.建立緩存機(jī)制
當(dāng)數(shù)據(jù)量增加時(shí),一般的處理工具都要考慮到緩存問題迟郎。緩存大小設(shè)置的好差也關(guān)系到數(shù)據(jù)處理的成敗剥险,例如,筆者在處理2億條數(shù)據(jù)聚合操作時(shí)宪肖,緩存設(shè)置為100000條/Buffer表制,這對于這個(gè)級別的數(shù)據(jù)量是可行的健爬。
6.加大虛擬內(nèi)存
如果系統(tǒng)資源有限,內(nèi)存提示不足夫凸,則可以靠增加虛擬內(nèi)存來解決浑劳。筆者在實(shí)際項(xiàng)目中曾經(jīng)遇到針對18億條的數(shù)據(jù)進(jìn)行處理,內(nèi)存為1GB夭拌,1個(gè)P42.4G的CPU魔熏,對這么大的數(shù)據(jù)量進(jìn)行聚合操作是有問題的,提示內(nèi)存不足鸽扁,那么采用了加大虛擬內(nèi)存的方法來解決蒜绽,在6塊磁盤分區(qū)上分別建立了6個(gè)4096M的磁盤分區(qū),用于虛擬內(nèi)存桶现,這樣虛擬的內(nèi)存則增加為4096*6+1024=25600M躲雅,解決了數(shù)據(jù)處理中的內(nèi)存不足問題。
7.分批處理
海量數(shù)據(jù)處理難因?yàn)閿?shù)據(jù)量大骡和,那么解決海量數(shù)據(jù)處理難的問題其中一個(gè)技巧是減少數(shù)據(jù)量相赁。可以對海量數(shù)據(jù)分批處理慰于,然后處理后的數(shù)據(jù)再進(jìn)行合并操作钮科,這樣逐個(gè)擊破,有利于小數(shù)據(jù)量的處理婆赠,不至于面對大數(shù)據(jù)量帶來的問題绵脯,不過這種方法也要因時(shí)因勢進(jìn)行,如果不允許拆分?jǐn)?shù)據(jù)休里,還需要另想辦法蛆挫。不過一般的數(shù)據(jù)按天、按月妙黍、按年等存儲的悴侵,都可以采用先分后合的方法,對數(shù)據(jù)進(jìn)行分開處理拭嫁。
8.使用臨時(shí)表和中間表
數(shù)據(jù)量增加時(shí)畜挨,處理中要考慮提前匯總。這樣做的目的是化整為零噩凹,大表變小表巴元,分塊處理完成后,再利用一定的規(guī)則進(jìn)行合并驮宴,處理過程中的臨時(shí)表的使用和中間結(jié)果的保存都非常重要逮刨,如果對于超海量的數(shù)據(jù),大表處理不了,只能拆分為多個(gè)小表修己。如果處理過程中需要多步匯總操作恢总,可按匯總步驟一步步來,不要一條語句完成睬愤,一口氣吃掉一個(gè)胖子片仿。
9.優(yōu)化查詢SQL語句
在對海量數(shù)據(jù)進(jìn)行查詢處理過程中,查詢的SQL語句的性能對查詢效率的影響是非常大的尤辱,編寫高效優(yōu)良的SQL腳本和存儲過程是數(shù)據(jù)庫工作人員的職責(zé)砂豌,也是檢驗(yàn)數(shù)據(jù)庫工作人員水平的一個(gè)標(biāo)準(zhǔn),在對SQL語句的編寫過程中光督,例如減少關(guān)聯(lián)阳距,少用或不用游標(biāo),設(shè)計(jì)好高效的數(shù)據(jù)庫表結(jié)構(gòu)等都十分必要结借。筆者在工作中試著對1億行的數(shù)據(jù)使用游標(biāo)筐摘,運(yùn)行3個(gè)小時(shí)沒有出結(jié)果,這是一定要改用程序處理了船老。
10.使用文本格式進(jìn)行處理
對一般的數(shù)據(jù)處理可以使用數(shù)據(jù)庫咖熟,如果對復(fù)雜的數(shù)據(jù)處理,必須借助程序柳畔,那么在程序操作數(shù)據(jù)庫和程序操作文本之間選擇球恤,是一定要選擇程序操作文本的,原因?yàn)椋撼绦虿僮魑谋舅俣瓤燧┠鳎粚ξ谋具M(jìn)行處理不容易出錯(cuò);文本的存儲不受限制等堪置。例如一般的海量的網(wǎng)絡(luò)日志都是文本格式或者csv格式(文本格式)躬存,對它進(jìn)行處理牽扯到數(shù)據(jù)清洗,是要利用程序進(jìn)行處理的舀锨,而不建議導(dǎo)入數(shù)據(jù)庫再做清洗岭洲。
原文地址:http://www.dashengzb.cn/articles/a-290.html
(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書坎匿,可添加個(gè)人微信號(dashenghuaer))