大數(shù)據(jù)自助分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
http://d.wanfangdata.com.cn/Thesis/D590636
近幾年鞋拟,互聯(lián)網(wǎng)的高速發(fā)展论衍,數(shù)據(jù)量呈指數(shù)上漲令花,我們已然進(jìn)入了“大數(shù)據(jù)時(shí)代”。在這樣的互聯(lián)網(wǎng)時(shí)代里鸯匹,數(shù)據(jù)發(fā)揮著越來(lái)越重要的作用雾消≡植互聯(lián)網(wǎng)先驅(qū)Google、IBM等公司首先意識(shí)到了大數(shù)據(jù)蘊(yùn)含的巨大價(jià)值立润,率先投入資源進(jìn)行研究狂窑。對(duì)于相對(duì)落后的中國(guó)互聯(lián)網(wǎng),各大公司也紛紛崛起追趕桑腮∪ 本課題通過(guò)對(duì)大數(shù)據(jù)研究,開(kāi)發(fā)大數(shù)據(jù)產(chǎn)品,提供給用戶一個(gè)數(shù)據(jù)提取和分析的自助化平臺(tái)丛晦。此平臺(tái)利用已有用戶數(shù)據(jù)資源奕纫,通過(guò)提取和分析,將雜亂數(shù)據(jù)變?yōu)榫哂猩虡I(yè)價(jià)值的可用資源烫沙,解決產(chǎn)品經(jīng)理們面臨的數(shù)據(jù)難題匹层。 本系統(tǒng)基于騰訊分布式數(shù)據(jù)倉(cāng)庫(kù)(TDW)之上進(jìn)行開(kāi)發(fā)斧吐,利用TDW存儲(chǔ)和計(jì)算資源實(shí)現(xiàn)數(shù)據(jù)提取和分析又固。本系統(tǒng)分為四大模塊:TDW接入模塊、任務(wù)調(diào)度模塊煤率、權(quán)限管理模塊和Web功能模塊。其中TDW接入模塊將TDW存儲(chǔ)數(shù)據(jù)表配置信息和各業(yè)務(wù)的分析指標(biāo)接入本系統(tǒng)乏冀,供提取和分析使用蝶糯,同時(shí)將計(jì)算任務(wù)通過(guò)任務(wù)調(diào)度,接入TDW中運(yùn)行辆沦,獲取或者上傳數(shù)據(jù)昼捍。用戶通過(guò)權(quán)限管理模塊,獲得相應(yīng)數(shù)據(jù)表肢扯、分析指標(biāo)的訪問(wèn)權(quán)限妒茬。而后,用戶可在Web功能模塊中完成數(shù)據(jù)提取和分析蔚晨。其中用戶可根據(jù)需求篩選數(shù)據(jù)子集乍钻、上傳文件、對(duì)提取任務(wù)結(jié)果铭腕、上傳數(shù)據(jù)或者大盤(pán)數(shù)據(jù)進(jìn)行相應(yīng)指標(biāo)的分析银择。本文提供基本分析、對(duì)比分析累舷、交叉分析浩考、下鉆分析、聚類(lèi)分析被盈、相關(guān)分析等分析方法析孽,根據(jù)用戶所選指標(biāo)和數(shù)據(jù)包,自動(dòng)選擇分析方法進(jìn)行分析只怎⊥嗨玻 目前系統(tǒng)可供用戶提取的數(shù)據(jù)約為100PB,可分析指標(biāo)超過(guò)5000個(gè)尝盼,能夠滿足產(chǎn)品經(jīng)理日常產(chǎn)品運(yùn)營(yíng)吞滞、策劃等需求。經(jīng)過(guò)性能測(cè)試,結(jié)合產(chǎn)品運(yùn)營(yíng)報(bào)告裁赠,對(duì)系統(tǒng)進(jìn)行了優(yōu)化殿漠,提供給用戶一個(gè)穩(wěn)定、可用佩捞、易用的數(shù)據(jù)分析平臺(tái)绞幌。