智慧數(shù)據(jù):大數(shù)據(jù)應(yīng)用解決方案(圖文)
http://www.360doc.com/showweb/0/0/789569893.aspx
一峡扩、大數(shù)據(jù)概述
1.1.概述
大數(shù)據(jù)瞧壮,IT行業(yè)的又一次技術(shù)變革盟榴,大數(shù)據(jù)的浪潮洶涌而至,對(duì)國(guó)家治理逆瑞、企業(yè)決策和個(gè)人生活都在產(chǎn)生深遠(yuǎn)的影響吨掌,并將成為云計(jì)算、物聯(lián)網(wǎng)之后信息技術(shù)產(chǎn)業(yè)領(lǐng)域又一重大創(chuàng)新變革胯杭。未來(lái)的十年將是一個(gè)“大數(shù)據(jù)”引領(lǐng)的智慧科技的時(shí)代驯杜、隨著社交網(wǎng)絡(luò)的逐漸成熟,移動(dòng)帶寬迅速提升做个、云計(jì)算鸽心、物聯(lián)網(wǎng)應(yīng)用更加豐富、更多的傳感設(shè)備居暖、移動(dòng)終端接入到網(wǎng)絡(luò)顽频,由此而產(chǎn)生的數(shù)據(jù)及增長(zhǎng)速度將比歷史上的任何時(shí)期都要多、都要快太闺。
數(shù)據(jù)技術(shù)發(fā)展歷史如圖一所示:
圖一
1.2.大數(shù)據(jù)定義
“大數(shù)據(jù)”是一個(gè)涵蓋多種技術(shù)的概念糯景,簡(jiǎn)單地說(shuō),是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合蟀淮。IBM將“大數(shù)據(jù)”理念定義為4個(gè)V最住,即大量化(Volume)、多樣化(Variety)怠惶、快速化(Velocity)及由此產(chǎn)生的價(jià)值(Value)涨缚。
如圖二:
圖二
要理解大數(shù)據(jù)這一概念,首先要從'大'入手甚疟,'大'是指數(shù)據(jù)規(guī)模仗岖,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量逃延。大數(shù)據(jù)同過(guò)去的海量數(shù)據(jù)有所區(qū)別览妖,其基本特征可以用4個(gè)V來(lái)總結(jié)(Volume、Variety揽祥、Value和Velocity)讽膏,即體量大、多樣性拄丰、價(jià)值密度低府树、速度快。
1)Volume數(shù)據(jù)體量巨大料按。從TB級(jí)別奄侠,躍升到PB級(jí)別。
2)Variety數(shù)據(jù)類(lèi)型繁多载矿,如前文提到的網(wǎng)絡(luò)日志垄潮、視頻、圖片闷盔、地理位置信息弯洗,等等。
3)Value價(jià)值密度低逢勾。以視頻為例牡整,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒溺拱。
4)Velocity處理速度快逃贝。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同迫摔。物聯(lián)網(wǎng)秋泳、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)攒菠、車(chē)聯(lián)網(wǎng)迫皱、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器卓起,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式和敬。
大數(shù)據(jù)技術(shù)是指從各種各樣類(lèi)型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)戏阅。解決大數(shù)據(jù)問(wèn)題的核心是大數(shù)據(jù)技術(shù)昼弟。目前所說(shuō)的'大數(shù)據(jù)'不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具奕筐、平臺(tái)和數(shù)據(jù)分析系統(tǒng)舱痘。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過(guò)解決巨量數(shù)據(jù)處理問(wèn)題促進(jìn)其突破性發(fā)展离赫。因此芭逝,大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā)渊胸,搶占時(shí)代發(fā)展的前沿旬盯。
1.3.大數(shù)據(jù)技術(shù)發(fā)展
大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和構(gòu)架,用于以很經(jīng)濟(jì)的方式翎猛、以高速的捕獲胖翰、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值切厘,而且未來(lái)急劇增長(zhǎng)的數(shù)據(jù)迫切需要尋求新的處理技術(shù)手段萨咳。
如圖三所示:
圖三
在“大數(shù)據(jù)”(Bigdata)時(shí)代,通過(guò)互聯(lián)網(wǎng)疫稿、社交網(wǎng)絡(luò)培他、物聯(lián)網(wǎng),人們能夠及時(shí)全面地獲得大信息而克。同時(shí)靶壮,信息自身存在形式的變化與演進(jìn),也使得作為信息載體的數(shù)據(jù)以遠(yuǎn)超人們想象的速度迅速膨脹员萍。
云時(shí)代的到來(lái)使得數(shù)據(jù)創(chuàng)造的主體由企業(yè)逐漸轉(zhuǎn)向個(gè)體腾降,而個(gè)體所產(chǎn)生的絕大部分?jǐn)?shù)據(jù)為圖片、文檔碎绎、視頻等非結(jié)構(gòu)化數(shù)據(jù)螃壤。信息化技術(shù)的普及使得企業(yè)更多的辦公流程通過(guò)網(wǎng)絡(luò)得以實(shí)現(xiàn),由此產(chǎn)生的數(shù)據(jù)也以非結(jié)構(gòu)化數(shù)據(jù)為主筋帖。預(yù)計(jì)到2012年奸晴,非結(jié)構(gòu)化數(shù)據(jù)將達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的75%以上。用于提取智慧的“大數(shù)據(jù)”日麸,往往是這些非結(jié)構(gòu)化數(shù)據(jù)寄啼。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)逮光、BI、鏈路挖掘等應(yīng)用對(duì)數(shù)據(jù)處理的時(shí)間要求往往以小時(shí)或天為單位墩划。但“大數(shù)據(jù)”應(yīng)用突出強(qiáng)調(diào)數(shù)據(jù)處理的實(shí)時(shí)性涕刚。在線(xiàn)個(gè)性化推薦、股票交易處理乙帮、實(shí)時(shí)路況信息等數(shù)據(jù)處理時(shí)間要求在分鐘甚至秒級(jí)杜漠。
全球技術(shù)研究和咨詢(xún)公司Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對(duì)眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢(shì)之一,而其他領(lǐng)域的研究察净,如云計(jì)算驾茴、下一代分析、內(nèi)存計(jì)算等也都與“大數(shù)據(jù)”的研究相輔相成氢卡。Gartner在其新興技術(shù)成熟度曲線(xiàn)中將“大數(shù)據(jù)”技術(shù)視為轉(zhuǎn)型技術(shù)锈至,這意味著“大數(shù)據(jù)”技術(shù)將在未來(lái)3—5年內(nèi)進(jìn)入主流。
而“大數(shù)據(jù)”的多樣性決定了數(shù)據(jù)采集來(lái)源的復(fù)雜性异吻,從智能傳感器到社交網(wǎng)絡(luò)數(shù)據(jù)裹赴,從聲音圖片到在線(xiàn)交易數(shù)據(jù)喜庞,可能性是無(wú)窮無(wú)盡的诀浪。選擇正確的數(shù)據(jù)來(lái)源并進(jìn)行交叉分析可以為企業(yè)創(chuàng)造最顯著的利益。隨著數(shù)據(jù)源的爆發(fā)式增長(zhǎng)延都,數(shù)據(jù)的多樣性成為“大數(shù)據(jù)”應(yīng)用亟待解決的問(wèn)題雷猪。例如如何實(shí)時(shí)地及通過(guò)各種數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)安全地訪(fǎng)問(wèn)數(shù)據(jù),如何通過(guò)優(yōu)化存儲(chǔ)策略晰房,評(píng)估當(dāng)前的數(shù)據(jù)存儲(chǔ)技術(shù)并改進(jìn)求摇、加強(qiáng)數(shù)據(jù)存儲(chǔ)能力,最大限度地利用現(xiàn)有的存儲(chǔ)投資殊者。從某種意義上說(shuō)与境,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。
“大數(shù)據(jù)”不僅是一場(chǎng)技術(shù)變革猖吴,更是一場(chǎng)商業(yè)模式變革摔刁。在“大數(shù)據(jù)”概念提出之前,盡管互聯(lián)網(wǎng)為傳統(tǒng)企業(yè)提供了一個(gè)新的銷(xiāo)售渠道海蔽,但總體來(lái)看共屈,二者平行發(fā)展,鮮有交集党窜。我們可以看到拗引,無(wú)論是Google通過(guò)分析用戶(hù)個(gè)人信息,根據(jù)用戶(hù)偏好提供精準(zhǔn)廣告幌衣,還是Facebook將用戶(hù)的線(xiàn)下社會(huì)關(guān)系遷移在線(xiàn)上矾削,構(gòu)造一個(gè)半真實(shí)的實(shí)名帝國(guó),但這些商業(yè)和消費(fèi)模式仍不能脫離互聯(lián)網(wǎng),傳統(tǒng)企業(yè)仍無(wú)法嫁接到互聯(lián)網(wǎng)中哼凯。同時(shí)垦细,傳統(tǒng)企業(yè)通過(guò)傳統(tǒng)的用戶(hù)分析工具卻很難獲得大范圍用戶(hù)的真實(shí)需求。
企業(yè)從大規(guī)模制造過(guò)渡到大規(guī)模定制挡逼,必須掌握用戶(hù)的需求特點(diǎn)括改。在互聯(lián)網(wǎng)時(shí)代,這些需求特征往往是在用戶(hù)不經(jīng)意的行為中透露出來(lái)的家坎。通過(guò)對(duì)信息進(jìn)行關(guān)聯(lián)嘱能、參照、聚類(lèi)虱疏、分類(lèi)等方法分析惹骂,才能得到答案。
“大數(shù)據(jù)”在互聯(lián)網(wǎng)與傳統(tǒng)企業(yè)間建立一個(gè)交集做瞪。它推動(dòng)互聯(lián)網(wǎng)企業(yè)融合進(jìn)傳統(tǒng)企業(yè)的供應(yīng)鏈对粪,并在傳統(tǒng)企業(yè)種下互聯(lián)網(wǎng)基因。傳統(tǒng)企業(yè)與互聯(lián)網(wǎng)企業(yè)的結(jié)合装蓬,網(wǎng)民和消費(fèi)者的融合著拭,必將引發(fā)消費(fèi)模式、制造模式牍帚、管理模式的巨大變革儡遮。
大數(shù)據(jù)正成為IT行業(yè)全新的制高點(diǎn),各企業(yè)和組織紛紛助推大數(shù)據(jù)的發(fā)展暗赶,相關(guān)技術(shù)呈現(xiàn)百花齊放局面鄙币,并在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域嶄露頭角,具體情況如下圖四所示:
圖四
大數(shù)據(jù)將帶來(lái)巨大的技術(shù)和商業(yè)機(jī)遇蹂随,大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來(lái)巨大的商業(yè)價(jià)值十嘿,而隨著應(yīng)用數(shù)據(jù)規(guī)模急劇增加,傳統(tǒng)計(jì)算面臨嚴(yán)重挑戰(zhàn)岳锁,大規(guī)模數(shù)據(jù)處理和行業(yè)應(yīng)用需求日益增加和迫切出現(xiàn)越來(lái)越多的大規(guī)模數(shù)據(jù)處理應(yīng)用需求绩衷,傳統(tǒng)系統(tǒng)難以提供足夠的存儲(chǔ)和計(jì)算資源進(jìn)行處理,云計(jì)算技術(shù)是最理想的解決方案浸锨。
調(diào)查顯示:目前唇聘,IT專(zhuān)業(yè)人員對(duì)云計(jì)算中諸多關(guān)鍵技術(shù)最為關(guān)心的是大規(guī)模數(shù)據(jù)并行處理技術(shù)大數(shù)據(jù)并行處理沒(méi)有通用和現(xiàn)成的解決方案對(duì)于應(yīng)用行業(yè)來(lái)說(shuō),云計(jì)算平臺(tái)軟件柱搜、虛擬化軟件都不需要自己開(kāi)發(fā)迟郎,但行業(yè)的大規(guī)模數(shù)據(jù)處理應(yīng)用沒(méi)有現(xiàn)成和通用的軟件,需要針對(duì)特定的應(yīng)用需求專(zhuān)門(mén)開(kāi)發(fā)聪蘸,涉及到諸多并行化算法宪肖、索引查詢(xún)優(yōu)化技術(shù)研究表制、以及系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn),這些都為大數(shù)據(jù)處理技術(shù)的發(fā)展提供了巨大的驅(qū)動(dòng)力控乾,
二么介、大數(shù)據(jù)應(yīng)用
2.1.大數(shù)據(jù)應(yīng)用闡述
大數(shù)據(jù)能做什么?我們那么多地方探討大數(shù)據(jù)蜕衡,無(wú)非總結(jié)下來(lái)就做三件事:
第一壤短,對(duì)信息的理解。你發(fā)的每一張圖片慨仿、每一個(gè)新聞久脯、每一個(gè)廣告,這些都是信息镰吆,你對(duì)這個(gè)信息的理解是大數(shù)據(jù)重要的領(lǐng)域帘撰。
第二,用戶(hù)的理解万皿,每個(gè)人的基本特征摧找,你的潛在的特征,每個(gè)用戶(hù)上網(wǎng)的習(xí)慣等等牢硅,這些都是對(duì)用戶(hù)的理解蹬耘。
第三,關(guān)系唤衫。關(guān)系才是我們的核心婆赠,信息與信息之間的關(guān)系绵脯,一條微博和另外一條微博之間的關(guān)系佳励,一個(gè)廣告和另外一個(gè)廣告的關(guān)系。一條微博和一個(gè)視頻之間的關(guān)系蛆挫,這些在我們?nèi)庋廴タ吹臅r(shí)候是相對(duì)簡(jiǎn)單的赃承。
比如有條微博說(shuō)這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的悴侵。人眼一眼就能看出來(lái)瞧剖。但是用機(jī)器怎么能看出來(lái)這是一件事,以及他們之間的因果關(guān)系可免,這是很有難度的抓于。
然后就是用戶(hù)與用戶(hù)之間的關(guān)系。哪些人你愿意收聽(tīng)浇借,是你的朋友捉撮,哪些是你感興趣的領(lǐng)域,你是一個(gè)音樂(lè)達(dá)人妇垢,你是一個(gè)吃貨巾遭,那個(gè)用戶(hù)也是一個(gè)吃貨肉康,你愿意收聽(tīng)他。這就是用戶(hù)與用戶(hù)之間的關(guān)系理解灼舍。還有用戶(hù)與信息之間的理解吼和,就是你對(duì)哪一類(lèi)型的微博感興趣,你對(duì)哪一類(lèi)型的信息感興趣骑素,如果牽扯到商業(yè)化炫乓,你對(duì)哪一類(lèi)的廣告或者商品感興趣。其實(shí)就是用戶(hù)與信息之間的關(guān)系献丑,他無(wú)非是做這件事厢岂。
大數(shù)據(jù)說(shuō)的那么懸,其實(shí)主要是做三件事:對(duì)用戶(hù)的理解阳距、對(duì)信息的理解塔粒、對(duì)關(guān)系的理解。如果我們?cè)谶@三件事之間還要提一件事的話(huà)筐摘,一個(gè)叫趨勢(shì)卒茬。他也是關(guān)系的一種變種,只是關(guān)系稍微遠(yuǎn)一點(diǎn)咖熟,情感之間的分析圃酵,還有我們政府部門(mén)做的輿情監(jiān)控。他可以監(jiān)控大規(guī)模的數(shù)據(jù)馍管,可以分析出人的動(dòng)向郭赐。在美國(guó)的好萊塢,這兩年也是基于FACEBOOK和TIWTTER的數(shù)據(jù)來(lái)預(yù)測(cè)即將上映的電影的票房确沸。他也是一個(gè)趨勢(shì)的分析捌锭,只是我們把這個(gè)趨勢(shì)提前來(lái)。核心就是這三件事罗捎。
2.2.大數(shù)據(jù)應(yīng)用架構(gòu)
2.3.大數(shù)據(jù)行業(yè)應(yīng)用
2.3.1.醫(yī)療行業(yè)
1.SetonHealthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測(cè)的首個(gè)客戶(hù)观谦。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過(guò)大數(shù)據(jù)處理桨菜,更好地分析病人的信息豁状。
2.在加拿大多倫多的一家醫(yī)院,針對(duì)早產(chǎn)嬰兒倒得,每秒鐘有超過(guò)3000次的數(shù)據(jù)讀取泻红。通過(guò)這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問(wèn)題并且有針對(duì)性地采取措施霞掺,避免早產(chǎn)嬰兒夭折谊路。
3.它讓更多的創(chuàng)業(yè)者更方便地開(kāi)發(fā)產(chǎn)品,比如通過(guò)社交網(wǎng)絡(luò)來(lái)收集數(shù)據(jù)的健康類(lèi)App根悼。也許未來(lái)數(shù)年后凶异,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確蜀撑,比方說(shuō)不是通用的成人每日三次一次一片,而是檢測(cè)到你的血液中藥劑已經(jīng)代謝完成會(huì)自動(dòng)提醒你再次服藥剩彬。
2.3.2.能源行業(yè)
1.智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端酷麦,也就是所謂的智能電表。在德國(guó)喉恋,為了鼓勵(lì)利用太陽(yáng)能沃饶,會(huì)在家庭安裝太陽(yáng)能入撒,除了賣(mài)電給你暂幼,當(dāng)你的太陽(yáng)能有多余電的時(shí)候還可以買(mǎi)回來(lái)。通過(guò)電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù)啰扛,收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶(hù)的用電習(xí)慣等氓鄙,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里馆揉,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后抖拦,就可以向發(fā)電或者供電企業(yè)購(gòu)買(mǎi)一定數(shù)量的電升酣。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果提前買(mǎi)就會(huì)比較便宜态罪,買(mǎi)現(xiàn)貨就比較貴噩茄。通過(guò)這個(gè)預(yù)測(cè)后,可以降低采購(gòu)成本复颈。
2.維斯塔斯風(fēng)力系統(tǒng)绩聘,依靠的是BigInsights軟件和IBM超級(jí)計(jì)算機(jī),然后對(duì)氣象數(shù)據(jù)進(jìn)行分析耗啦,找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)凿菩。利用大數(shù)據(jù),以往需要數(shù)周的分析工作芹彬,現(xiàn)在僅需要不足1小時(shí)便可完成蓄髓。
2.3.3.通信行業(yè)
1.XOCommunications通過(guò)使用IBMSPSS預(yù)測(cè)分析軟件,減少了將近一半的客戶(hù)流失率舒帮。XO現(xiàn)在可以預(yù)測(cè)客戶(hù)的行為,發(fā)現(xiàn)行為趨勢(shì)陡叠,并找出存在缺陷的環(huán)節(jié)玩郊,從而幫助公司及時(shí)采取措施,保留客戶(hù)枉阵。此外译红,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過(guò)提供單個(gè)端到端網(wǎng)絡(luò)兴溜、服務(wù)侦厚、客戶(hù)分析視圖的可擴(kuò)展平臺(tái)耻陕,幫助通信企業(yè)制定更科學(xué)、合理決策刨沦。
2.電信業(yè)者透過(guò)數(shù)以千萬(wàn)計(jì)的客戶(hù)資料诗宣,能分析出多種使用者行為和趨勢(shì),賣(mài)給需要的企業(yè)想诅,這是全新的資料經(jīng)濟(jì)召庞。
3.中國(guó)移動(dòng)通過(guò)大數(shù)據(jù)分析,對(duì)企業(yè)運(yùn)營(yíng)的全業(yè)務(wù)進(jìn)行針對(duì)性的監(jiān)控来破、預(yù)警篮灼、跟蹤。系統(tǒng)在第一時(shí)間自動(dòng)捕捉市場(chǎng)變化徘禁,再以最快捷的方式推送給指定負(fù)責(zé)人诅诱,使他在最短時(shí)間內(nèi)獲知市場(chǎng)行情。
4.NTTdocomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來(lái)送朱,為顧客提供附近的餐飲店信息逢艘,接近末班車(chē)時(shí)間時(shí),提供末班車(chē)信息服務(wù)骤菠。
2.3.4.零售業(yè)
1.'我們的某個(gè)客戶(hù)它改,是一家領(lǐng)先的專(zhuān)業(yè)時(shí)裝零售商,通過(guò)當(dāng)?shù)氐陌儇浬痰晟毯酢⒕W(wǎng)絡(luò)及其郵購(gòu)目錄業(yè)務(wù)為客戶(hù)提供服務(wù)央拖。公司希望向客戶(hù)提供差異化服務(wù),如何定位公司的差異化鹉戚,他們通過(guò)從Twitter和Facebook上收集社交信息鲜戒,更深入的理解化妝品的營(yíng)銷(xiāo)模式,隨后他們認(rèn)識(shí)到必須保留兩類(lèi)有價(jià)值的客戶(hù):高消費(fèi)者和高影響者抹凳。希望通過(guò)接受免費(fèi)化妝服務(wù)遏餐,讓用戶(hù)進(jìn)行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合赢底,為業(yè)務(wù)挑戰(zhàn)提供了解決方案失都。'Informatica的技術(shù)幫助這家零售商用社交平臺(tái)上的數(shù)據(jù)充實(shí)了客戶(hù)主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性幸冻。
2.零售企業(yè)也監(jiān)控客戶(hù)的店內(nèi)走動(dòng)情況以及與商品的互動(dòng)粹庞。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來(lái)展開(kāi)分析,從而在銷(xiāo)售哪些商品洽损、如何擺放貨品以及何時(shí)調(diào)整售價(jià)上給出意見(jiàn)庞溜,此類(lèi)方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時(shí)在保持市場(chǎng)份額的前提下碑定,增加了高利潤(rùn)率自有品牌商品的比例流码。
三又官、大數(shù)據(jù)解決方案
3.1.大數(shù)據(jù)技術(shù)組成
大數(shù)據(jù)技術(shù)由四種技術(shù)構(gòu)成,它們包括:
3.1.1.分析技術(shù)
分析技術(shù)意味著對(duì)海量數(shù)據(jù)進(jìn)行分析以實(shí)時(shí)得出答案漫试,由于大數(shù)據(jù)的特殊性六敬,大數(shù)據(jù)分析技術(shù)還處于發(fā)展階段,老技術(shù)會(huì)日趨完善商虐,新技術(shù)會(huì)更多出現(xiàn)觉阅。大數(shù)據(jù)分析技術(shù)涵蓋了以下的的五個(gè)方面
3.1.1.1.可視化分析
數(shù)據(jù)可視化無(wú)論對(duì)于普通用戶(hù)或是數(shù)據(jù)分析專(zhuān)家,都是最基本的功能秘车。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說(shuō)話(huà)典勇,讓用戶(hù)直觀的感受到結(jié)果。
3.1.1.2.數(shù)據(jù)挖掘算法
圖像化是將機(jī)器語(yǔ)言翻譯給人看叮趴,而數(shù)據(jù)挖掘就是機(jī)器的母語(yǔ)割笙。分割、集群眯亦、孤立點(diǎn)分析還有各種各樣五花八門(mén)的算法讓我們精煉數(shù)據(jù)伤溉,挖掘價(jià)值。這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量妻率,同時(shí)還具有很高的處理速度乱顾。
3.1.1.3.預(yù)測(cè)分析能力
數(shù)據(jù)挖掘可以讓分析師對(duì)數(shù)據(jù)承載信息更快更好地消化理解,進(jìn)而提升判斷的準(zhǔn)確性宫静,而預(yù)測(cè)性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷走净。
3.1.1.4.語(yǔ)義引擎
非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來(lái)新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析孤里,提煉數(shù)據(jù)伏伯。語(yǔ)義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。
3.1.1.5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
數(shù)據(jù)質(zhì)量與管理是管理的最佳實(shí)踐捌袜,透過(guò)標(biāo)準(zhǔn)化流程和機(jī)器對(duì)數(shù)據(jù)進(jìn)行處理可以確保獲得一個(gè)預(yù)設(shè)質(zhì)量的分析結(jié)果说搅。
我們知道大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁(yè)存檔虏等、用戶(hù)點(diǎn)擊弄唧、商品信息、用戶(hù)關(guān)系等數(shù)據(jù)形成了持續(xù)增長(zhǎng)的海量數(shù)據(jù)集博其。這些大數(shù)據(jù)中蘊(yùn)藏著大量可以用于增強(qiáng)用戶(hù)體驗(yàn)套才、提高服務(wù)質(zhì)量和開(kāi)發(fā)新型應(yīng)用的知識(shí),而如何高效和準(zhǔn)確的發(fā)現(xiàn)這些知識(shí)就基本決定了各大互聯(lián)網(wǎng)公司在激烈競(jìng)爭(zhēng)環(huán)境中的位置慕淡。首先,以Google為首的技術(shù)型互聯(lián)網(wǎng)公司提出了MapReduce的技術(shù)框架沸毁,利用廉價(jià)的PC服務(wù)器集群峰髓,大規(guī)模并發(fā)處理批量事務(wù)傻寂。
利用文件系統(tǒng)存放非結(jié)構(gòu)化數(shù)據(jù),加上完善的備份和容災(zāi)策略携兵,這套經(jīng)濟(jì)實(shí)惠的大數(shù)據(jù)解決方案與之前昂貴的企業(yè)小型機(jī)集群+商業(yè)數(shù)據(jù)庫(kù)方案相比疾掰,不僅沒(méi)有丟失性能,而且還贏在了可擴(kuò)展性上徐紧。之前静檬,我們?cè)谠O(shè)計(jì)一個(gè)數(shù)據(jù)中心解決方案的前期,就要考慮到方案實(shí)施后的可擴(kuò)展性并级。通常的方法是預(yù)估今后一段時(shí)期內(nèi)的業(yè)務(wù)量和數(shù)據(jù)量拂檩,加入多余的計(jì)算單元(CPU)和存儲(chǔ),以備不時(shí)只需嘲碧。
這樣的方式直接導(dǎo)致了前期一次性投資的巨大稻励,并且即使這樣也依然無(wú)法保證計(jì)算需求和存儲(chǔ)超出設(shè)計(jì)量時(shí)的系統(tǒng)性能。而一旦需要擴(kuò)容愈涩,問(wèn)題就會(huì)接踵而來(lái)望抽。首先是商業(yè)并行數(shù)據(jù)庫(kù)通常需要各節(jié)點(diǎn)物理同構(gòu),也就是具有近似的計(jì)算和存儲(chǔ)能力履婉。而隨著硬件的更新煤篙,我們通常加入的新硬件都會(huì)強(qiáng)于已有的硬件。這樣毁腿,舊硬件就成為了系統(tǒng)的瓶頸辑奈。為了保證系統(tǒng)性能,我們不得不把舊硬件逐步替換掉狸棍,經(jīng)濟(jì)成本損失巨大身害。
其次,即使是當(dāng)前最強(qiáng)的商業(yè)并行數(shù)據(jù)庫(kù)草戈,其所能管理的數(shù)據(jù)節(jié)點(diǎn)也只是在幾十或上百這個(gè)數(shù)量級(jí)塌鸯,這主要是由于架構(gòu)上的設(shè)計(jì)問(wèn)題,所以其可擴(kuò)展性必然有限唐片。而MapReduce+GFS框架丙猬,不受上述問(wèn)題的困擾。需要擴(kuò)容了费韭,只需增加個(gè)機(jī)柜茧球,加入適當(dāng)?shù)挠?jì)算單元和存儲(chǔ),集群系統(tǒng)會(huì)自動(dòng)分配和調(diào)度這些資源星持,絲毫不影響現(xiàn)有系統(tǒng)的運(yùn)行
3.1.2.存儲(chǔ)數(shù)據(jù)庫(kù)
存儲(chǔ)數(shù)據(jù)庫(kù)(In-MemoryDatabases)讓信息快速流通抢埋,大數(shù)據(jù)分析經(jīng)常會(huì)用到存儲(chǔ)數(shù)據(jù)庫(kù)來(lái)快速處理大量記錄的數(shù)據(jù)流通。比方說(shuō),它可以對(duì)某個(gè)全國(guó)性的連鎖店某天的銷(xiāo)售記錄進(jìn)行分析揪垄,得出某些特征進(jìn)而根據(jù)某種規(guī)則及時(shí)為消費(fèi)者提供獎(jiǎng)勵(lì)回饋穷吮。
但傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)嚴(yán)格的設(shè)計(jì)定式、為保證強(qiáng)一致性而放棄性能饥努、可擴(kuò)展性差等問(wèn)題在大數(shù)據(jù)分析中被逐漸暴露捡鱼。隨之而來(lái),NoSQL數(shù)據(jù)存儲(chǔ)模型開(kāi)始風(fēng)行酷愧。NoSQL驾诈,也有人理解為NotOnlySQL,并不是一種特定的數(shù)據(jù)存儲(chǔ)模型溶浴,它是一類(lèi)非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱(chēng)乍迄。其特點(diǎn)是:沒(méi)有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展戳葵。NoSQL并不是單純的反對(duì)關(guān)系型數(shù)據(jù)庫(kù)就乓,而是針對(duì)其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲(chǔ)模型有文檔存儲(chǔ)拱烁、鍵-值存儲(chǔ)生蚁、圖存儲(chǔ)、對(duì)象數(shù)據(jù)庫(kù)戏自、列存儲(chǔ)等
NoSQL數(shù)據(jù)庫(kù)是一種建立在云平臺(tái)的新型數(shù)據(jù)處理模式邦投,NoSQL在很多情況下又叫做云數(shù)據(jù)庫(kù)。由于其處理數(shù)據(jù)的模式完全是分布于各種低成本服務(wù)器和存儲(chǔ)磁盤(pán)擅笔,因此它可以幫助網(wǎng)頁(yè)和各種交互性應(yīng)用快速處理過(guò)程中的海量數(shù)據(jù)志衣。它為Zynga、AOL猛们、Cisco以及其它一些企業(yè)提供網(wǎng)頁(yè)應(yīng)用支持念脯。正常的數(shù)據(jù)庫(kù)需要將數(shù)據(jù)進(jìn)行歸類(lèi)組織,類(lèi)似于姓名和帳號(hào)這些數(shù)據(jù)需要進(jìn)行結(jié)構(gòu)化和標(biāo)簽化弯淘。但是NoSQL數(shù)據(jù)庫(kù)則完全不關(guān)心這些绿店,它能處理各種類(lèi)型的文檔。
在處理海量數(shù)據(jù)同時(shí)請(qǐng)求時(shí)庐橙,它也不會(huì)有任何問(wèn)題假勿。比方說(shuō),如果有1000萬(wàn)人同時(shí)登錄某個(gè)Zynga游戲态鳖,它會(huì)將這些數(shù)據(jù)分布于全世界的服務(wù)器并通過(guò)它們來(lái)進(jìn)行數(shù)據(jù)處理转培,結(jié)果與1萬(wàn)人同時(shí)在線(xiàn)沒(méi)什么兩樣。現(xiàn)今有多種不同類(lèi)型的NoSQL模式浆竭。商業(yè)化的模式如Couchbase浸须、10gen的mongoDB以及Oracle的NoSQL;開(kāi)源免費(fèi)的模式如CouchDB和Cassandra;還有亞馬遜最新推出的NoSQL云服務(wù)惨寿。
3.1.3.分布式計(jì)算技術(shù)
分布式計(jì)算結(jié)合了NoSQL與實(shí)時(shí)分析技術(shù),如果想要同時(shí)處理實(shí)時(shí)分析與NoSQL數(shù)據(jù)功能羽戒,那么你就需要分布式計(jì)算技術(shù)缤沦。分布式技術(shù)結(jié)合了一系列技術(shù)虎韵,可以對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析易稠。更重要的是,它所使用的硬件非常便宜包蓝,因而讓這種技術(shù)的普及變成可能驶社。
SGI的SunnySundstrom解釋說(shuō),通過(guò)對(duì)那些看起來(lái)沒(méi)什么關(guān)聯(lián)和組織的數(shù)據(jù)進(jìn)行分析测萎,我們可以獲得很多有價(jià)值的結(jié)果亡电。比如說(shuō)可以分發(fā)現(xiàn)一些新的模式或者新的行為。運(yùn)用分布式計(jì)算技術(shù)硅瞧,銀行可以從消費(fèi)者的一些消費(fèi)行為和模式中識(shí)別網(wǎng)上交易的欺詐行為份乒。
分布式計(jì)算技術(shù)讓不可能變成可能,分布式計(jì)算技術(shù)正引領(lǐng)著將不可能變?yōu)榭赡芡筮蟆kyboxImaging就是一個(gè)很好的例子或辖。這家公司通過(guò)對(duì)衛(wèi)星圖片的分析得出一些實(shí)時(shí)結(jié)果,比如說(shuō)某個(gè)城市有多少可用停車(chē)空間枣接,或者某個(gè)港口目前有多少船只颂暇。它們將這些實(shí)時(shí)結(jié)果賣(mài)給需要的客戶(hù)。沒(méi)有這個(gè)技術(shù)但惶,要想快速便宜的分析這么大量衛(wèi)星圖片數(shù)據(jù)將是不可能的耳鸯。
如圖五所示:
圖五
分布式計(jì)算技術(shù)是Google的核心,也是Yahoo的基礎(chǔ)膀曾,目前分布式計(jì)算技術(shù)是基于Google創(chuàng)建的技術(shù)县爬,但是卻最新由Yahoo所建立。Google總共發(fā)表了兩篇論文添谊,2004年發(fā)表的叫做MapReduce的論文介紹了如何在多計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)處理;另一篇于2003年發(fā)表财喳,主要是關(guān)于如何在多服務(wù)器上存儲(chǔ)數(shù)據(jù)。來(lái)自于Yahoo的工程師DougCutting在讀了這兩篇論文后建立了分布式計(jì)算平臺(tái)碉钠,以他兒子的玩具大象命名纲缓。
如圖六所示:
圖六
而Hadoop作為一個(gè)重量級(jí)的分布式處理開(kāi)源框架已經(jīng)在大數(shù)據(jù)處理領(lǐng)域有所作為
3.2.大數(shù)據(jù)處理過(guò)程
3.2.1.采集
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶(hù)端(Web、App或者傳感器形式等)的數(shù)據(jù)喊废,并且用戶(hù)可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢(xún)和處理工作祝高。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù)污筷,除此之外工闺,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集乍赫。
在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高陆蟆,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶(hù)來(lái)進(jìn)行訪(fǎng)問(wèn)和操作雷厂,比如火車(chē)票售票網(wǎng)站和淘寶,它們并發(fā)的訪(fǎng)問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn)叠殷,所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐改鲫。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
3.2.2.導(dǎo)入/預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù)林束,但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析像棘,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群壶冒,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作缕题。也有一些用戶(hù)會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿(mǎn)足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求胖腾。
導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大烟零,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別咸作。
3.2.3.統(tǒng)計(jì)/分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù)锨阿,或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類(lèi)匯總等,以滿(mǎn)足大多數(shù)常見(jiàn)的分析需求性宏,在這方面群井,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata毫胜,以及基于MySQL的列式存儲(chǔ)Infobright等书斜,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop酵使。
統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大荐吉,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用口渔。
3.2.4.挖掘
與前面統(tǒng)計(jì)和分析過(guò)程不同的是样屠,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算缺脉,從而起到預(yù)測(cè)(Predict)的效果痪欲,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類(lèi)的Kmeans攻礼、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類(lèi)的NaiveBayes业踢,主要使用的工具有Hadoop的Mahout等。
該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜礁扮,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大知举,常用數(shù)據(jù)挖掘算法都以單線(xiàn)程為主瞬沦。整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿(mǎn)足這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理
3.3.大數(shù)據(jù)處理的核心技術(shù)-Hadoop
大數(shù)據(jù)技術(shù)涵蓋了硬軟件多個(gè)方面的技術(shù)雇锡,目前各種技術(shù)基本都獨(dú)立存在于存儲(chǔ)逛钻、開(kāi)發(fā)、平臺(tái)架構(gòu)锰提、數(shù)據(jù)分析挖掘的各個(gè)相對(duì)獨(dú)立的領(lǐng)域曙痘。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術(shù)——Hadoop。
3.3.1.Hadoop的組成
大數(shù)據(jù)不同于傳統(tǒng)類(lèi)型的數(shù)據(jù)欲账,它可能由TB甚至PB級(jí)信息組成屡江,既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本赛不、多媒體等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)類(lèi)型缺乏一致性罢洲,使得標(biāo)準(zhǔn)存儲(chǔ)技術(shù)無(wú)法對(duì)大數(shù)據(jù)進(jìn)行有效存儲(chǔ)踢故,而且我們也難以使用傳統(tǒng)的服務(wù)器和SAN方法來(lái)有效地存儲(chǔ)和處理龐大的數(shù)據(jù)量。這些都決定了“大數(shù)據(jù)”需要不同的處理方法惹苗,而Hadoop目前正是廣泛應(yīng)用的大數(shù)據(jù)處理技術(shù)殿较。Hadoop是一個(gè)基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上受Google在2004年白皮書(shū)中闡述的MapReduce的技術(shù)啟發(fā)桩蓉。
Hadoop主要組件包含如圖七:
HadoopCommon:通用模塊淋纲,
支持其他Hadoop模塊
HadoopDistributedFileSystem(HDFS):分布式文件系統(tǒng),用以提供高流量
的應(yīng)用數(shù)據(jù)訪(fǎng)問(wèn)
HadoopYARN:支持工作調(diào)度和集群資源管理的框架
HadoopMapReduce:針對(duì)大數(shù)據(jù)的院究、靈活的并行數(shù)據(jù)處理框架
其他相關(guān)的模塊還有:
ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng)
Oozie:負(fù)責(zé)MapReduce作業(yè)調(diào)度
HBase:可擴(kuò)展的分布式數(shù)據(jù)庫(kù)洽瞬,可以將結(jié)構(gòu)性數(shù)據(jù)存儲(chǔ)為大表
Hive:構(gòu)建在MapRudece之上的數(shù)據(jù)倉(cāng)庫(kù)軟件包
Pig:架構(gòu)在Hadoop之上的高級(jí)數(shù)據(jù)處理層
在Hadoop框架中,最底層的HDFS存儲(chǔ)Hadoop集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件业汰。HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的(如圖八)伙窃,
這些節(jié)點(diǎn)包括一個(gè)NameNode和大量的DataNode。存儲(chǔ)在HDFS中的文件被分成塊样漆,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)为障。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大蟹潘睢(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶(hù)機(jī)決定鳍怨。NameNode可以控制所有文件操作。
HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議跪妥。NameNode在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù)鞋喇,負(fù)責(zé)管理文件系統(tǒng)名稱(chēng)空間和控制外部客戶(hù)機(jī)的訪(fǎng)問(wèn)。它決定是否將文件映射到DataNode上的復(fù)制塊上骗奖。DataNode通常以機(jī)架的形式組織确徙,機(jī)架通過(guò)一個(gè)交換機(jī)將所有系統(tǒng)連接起來(lái)醒串。HadoopMapReduce是GoogleMapReduce的開(kāi)源實(shí)現(xiàn)。MapReduce技術(shù)是一種簡(jiǎn)潔的并行計(jì)算模型鄙皇,它在系統(tǒng)層面解決了擴(kuò)展性芜赌、容錯(cuò)性等問(wèn)題,通過(guò)接受用戶(hù)編寫(xiě)的Map函數(shù)和Reduce函數(shù)伴逸,自動(dòng)地在可伸縮的大規(guī)模集群上并行執(zhí)行缠沈,從而可以處理和分析大規(guī)模的數(shù)據(jù)[6]。Hadoop提供了大量的接口和抽象類(lèi)错蝴,從而為Hadoop應(yīng)用程序開(kāi)發(fā)人員提供許多工具洲愤,可用于調(diào)試和性能度量等。
在Hadoop應(yīng)用實(shí)例中顷锰,一個(gè)代表客戶(hù)機(jī)在單個(gè)主系統(tǒng)上啟動(dòng)MapReduce的應(yīng)用程序稱(chēng)為JobTracker柬赐。類(lèi)似于NameNode,它是Hadoop集群中唯一負(fù)責(zé)控制MapReduce應(yīng)用程序的系統(tǒng)官紫。在應(yīng)用程序提交之后肛宋,將提供包含在HDFS中的輸入和輸出目錄。JobTracker使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他TaskTracker從屬任務(wù)束世。MapReduce應(yīng)用程序被復(fù)制到每個(gè)出現(xiàn)輸入文件塊的節(jié)點(diǎn)酝陈,將為特定節(jié)點(diǎn)上的每個(gè)文件塊創(chuàng)建一個(gè)唯一的從屬任務(wù)。每個(gè)TaskTracker將狀態(tài)和完成信息報(bào)告給JobTracker毁涉。
如圖顯示一個(gè)示例集群中的工作分布沉帮,如圖九:
3.3.2.Hadoop的優(yōu)點(diǎn):
Hadoop能夠使用戶(hù)輕松開(kāi)發(fā)和運(yùn)行處理大數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):
3.3.2.1.高可靠性贫堰。
Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴(lài)穆壕。
3.3.2.2.高擴(kuò)展性。
Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的严嗜,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中粱檀。
3.3.2.3.高效性。
Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)漫玄,并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡茄蚯,因此處理速度非常快。
3.3.2.4.高容錯(cuò)性。
Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本席揽,并且能夠自動(dòng)將失敗的任務(wù)重新分配。Hadoop帶有用Java語(yǔ)言編寫(xiě)的框架皱碘,因此運(yùn)行在Linux生產(chǎn)平臺(tái)上是非常理想的。Hadoop上的應(yīng)用程序也可以使用其他語(yǔ)言編寫(xiě)隐孽,比如C++癌椿。
3.3.3.Hadoop的不足
Hadoop作為一個(gè)處理大數(shù)據(jù)的軟件框架健蕊,雖然受到眾多商業(yè)公司的青睞,但是其自身的技術(shù)特點(diǎn)也決定了它不能完全解決大數(shù)據(jù)問(wèn)題踢俄。在當(dāng)前Hadoop的設(shè)計(jì)中缩功,所有的metadata操作都要通過(guò)集中式的NameNode來(lái)進(jìn)行,NameNode有可能是性能的瓶頸都办。當(dāng)前Hadoop單一NameNode嫡锌、單一Jobtracker的設(shè)計(jì)嚴(yán)重制約了整個(gè)Hadoop可擴(kuò)展性和可靠性。首先琳钉,NameNode和JobTracker是整個(gè)系統(tǒng)中明顯的單點(diǎn)故障源势木。
再次,單一NameNode的內(nèi)存容量有限歌懒,使得Hadoop集群的節(jié)點(diǎn)數(shù)量被限制到2000個(gè)左右啦桌,能支持的文件系統(tǒng)大小被限制在10-50PB,最多能支持的文件數(shù)量大約為1.5億左右歼培。實(shí)際上震蒋,有用戶(hù)抱怨其集群的NameNode重啟需要數(shù)小時(shí),這大大降低了系統(tǒng)的可用性躲庄。隨著Hadoop被廣泛使用,面對(duì)各式各樣的需求钾虐,人們期望Hadoop能提供更多特性噪窘,比如完全可讀寫(xiě)的文件系統(tǒng)、Snapshot效扫、Mirror等等倔监。這些都是當(dāng)前版本的Hadoop不支持,但是用戶(hù)又有強(qiáng)烈需求的菌仁。
3.3.4.主要商業(yè)性“大數(shù)據(jù)”處理方案
“大數(shù)據(jù)”被科技企業(yè)看作是云計(jì)算之后的另一個(gè)巨大商機(jī)浩习,包括IBM、谷歌济丘、亞馬遜和微軟在內(nèi)的一大批知名企業(yè)紛紛掘金這一市場(chǎng)谱秽。此外,很多初創(chuàng)企業(yè)也開(kāi)始加入到大數(shù)據(jù)的淘金隊(duì)伍中摹迷。Hadoop是非結(jié)構(gòu)數(shù)據(jù)庫(kù)的代表疟赊,低成本、高擴(kuò)展性和靈活性等優(yōu)勢(shì)使其成為各種面向大數(shù)據(jù)處理分析的商業(yè)服務(wù)方案的首選峡碉。Oracle近哟、IBM、Microsoft三大商業(yè)數(shù)據(jù)提供商是Hadoop的主要支持者鲫寄。很多知名企業(yè)都以Hadoop技術(shù)為基礎(chǔ)提供自己的商業(yè)性大數(shù)據(jù)解決方案吉执。這一部分主要介紹以Hadoop為基礎(chǔ)的典型商業(yè)性大數(shù)據(jù)解決方案疯淫。
3.3.2.5.IBMInfoSphere大數(shù)據(jù)分析平臺(tái)
IBM于2011年5月推出的InfoSphere大數(shù)據(jù)分析平臺(tái)是一款定位為企業(yè)級(jí)的大數(shù)據(jù)分析產(chǎn)品。該產(chǎn)品包括BigInsights和Streams戳玫,二者互補(bǔ)熙掺,Biglnsights基于Hadoop,對(duì)大規(guī)模的靜態(tài)數(shù)據(jù)進(jìn)行分析量九,它提供多節(jié)點(diǎn)的分布式計(jì)算适掰,可以隨時(shí)增加節(jié)點(diǎn),提升數(shù)據(jù)處理能力荠列。
Streams采用內(nèi)存計(jì)算方式分析實(shí)時(shí)數(shù)據(jù)类浪。它們將包括HadoopMapReduce在內(nèi)的開(kāi)源技術(shù)緊密地與IBM系統(tǒng)集成起來(lái)。研究Hadoop這樣開(kāi)源技術(shù)的人很多肌似,但是IBM這次是真正將其變成了企業(yè)級(jí)的應(yīng)用费就,針對(duì)不同的人員增加不同的價(jià)值。InfoSphereBigInsights1.3的存儲(chǔ)和運(yùn)算框架采用了開(kāi)源的HadoopMapReduce川队,同時(shí)針對(duì)Hadoop框架進(jìn)行了改造力细,采用了IBM特有的通用并行文件系統(tǒng)——GPFS。
利用GPFS的目的是為了避免單點(diǎn)故障固额,保證可用性眠蚂。BigInsights中還有兩個(gè)分析產(chǎn)品——Cognos和SPSS,這兩個(gè)分析產(chǎn)品在傳統(tǒng)功能上加強(qiáng)了文本分析的功能斗躏,提供了一系列文本分析工具逝慧,并使用高級(jí)語(yǔ)言進(jìn)行自定義規(guī)則,如文本格式轉(zhuǎn)換等啄糙。
目前BigInsights提供兩種版本笛臣,一種是企業(yè)版(EnterpriseEdition),用于企業(yè)級(jí)的大數(shù)據(jù)分析解決方案隧饼。另一種是基礎(chǔ)版(BasicEdition)沈堡,去掉了企業(yè)版中的大部分功能,用戶(hù)可以免費(fèi)下載燕雁,主要提供給開(kāi)發(fā)人員和合作伙伴試用诞丽。Streams最大的特點(diǎn)就是內(nèi)存分析,利用多節(jié)點(diǎn)PC服務(wù)器的內(nèi)存來(lái)處理大批量的數(shù)據(jù)分析請(qǐng)求贵白。Streams的特點(diǎn)就是“小快靈”率拒,數(shù)據(jù)是實(shí)時(shí)流動(dòng)的,其分析反應(yīng)速度可以控制在毫秒級(jí)別禁荒,而B(niǎo)igInsights的分析是批處理猬膨,反應(yīng)速度無(wú)法同Streams相比。
總體來(lái)說(shuō),二者的設(shè)計(jì)架構(gòu)不同勃痴,也用于處理不同的大數(shù)據(jù)分析需求谒所,并可以形成良好的互補(bǔ)。InfoSphere平臺(tái)僅僅是IBM大數(shù)據(jù)解決方案中的一部分沛申。IBM大數(shù)據(jù)平臺(tái)包括4大部分:信息整合與治理組件劣领、基于開(kāi)源ApacheHadoop的框架而實(shí)現(xiàn)的BigInsights平臺(tái)、加速器铁材,以及包含可視化與發(fā)現(xiàn)尖淘、應(yīng)用程序開(kāi)發(fā)、系統(tǒng)管理的上層應(yīng)用著觉。通過(guò)IBM的解決方案可以看出村生,解決大數(shù)據(jù)問(wèn)題不能僅僅依靠Hadoop。
3.3.2.6.OracleBigDataApplianc
OracleBigDataAppliance準(zhǔn)確地說(shuō)是一款硬件產(chǎn)品饼丘,添加了Hadoop裝載器趁桃、應(yīng)用適配器以及Oracle新的NoSQL數(shù)據(jù)庫(kù),主要目的是為了將非結(jié)構(gòu)化數(shù)據(jù)加載到關(guān)系型數(shù)據(jù)庫(kù)中去肄鸽,并對(duì)軟硬件的集成做了一些優(yōu)化卫病。OracleBigData機(jī)包括開(kāi)源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫(kù)典徘、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器蟀苛、OracleHadoop裝載器、OpenSourceDistributionofR逮诲、OracleLinux和OracleJavaHotSpot虛擬機(jī)屹逛。
它能夠快速、便捷地與Oracle數(shù)據(jù)庫(kù)11g汛骂、OracleExadata數(shù)據(jù)庫(kù)云服務(wù)器和OracleExalytics商務(wù)智能云服務(wù)器集成。分析師和統(tǒng)計(jì)人員可以運(yùn)行現(xiàn)有的R應(yīng)用评腺,并利用R客戶(hù)端直接處理存儲(chǔ)在Oracle數(shù)據(jù)庫(kù)11g中的數(shù)據(jù)帘瞭,從而極大地提高可擴(kuò)展性、性能和安全性蒿讥。
3.3.2.7.MicrosoftSQLServer
微軟已經(jīng)發(fā)布HadoopConnectorforSQLServerParallelDataWarehouse和HadoopConnectorforSQLServer社區(qū)技術(shù)預(yù)覽版本的連接器蝶念。該連接器是雙向的,用戶(hù)可以在Hadoop和微軟數(shù)據(jù)庫(kù)服務(wù)器之間向前或者向后遷移數(shù)據(jù)芋绸。微軟的SQLServer2012將并入Hadoop分布式計(jì)算平臺(tái)媒殉,微軟還將把Hadoop引入WindowsServer和Azure(微軟的云服務(wù))。
3.3.2.8.SybaseIQ
SybaseIQ是Sybase公司推出的特別為數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的關(guān)系型數(shù)據(jù)庫(kù)摔敛,添加了Hadoop的集成廷蓉,并提供了MapReduce的API。相比于傳統(tǒng)的“行式存儲(chǔ)”的關(guān)系型數(shù)據(jù)庫(kù)马昙,SybaseIQ使用了獨(dú)特的列式存儲(chǔ)方式桃犬,在進(jìn)行分析查詢(xún)時(shí)刹悴,僅需讀取查詢(xún)所需的列,其垂直分區(qū)策略不僅能夠支持大量的用戶(hù)攒暇、大規(guī)模數(shù)據(jù)土匀,還可以提交對(duì)商業(yè)信息的高速訪(fǎng)問(wèn),其速度可達(dá)到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的百倍甚至千倍形用。
3.3.5.其他“大數(shù)據(jù)”解決方案
“大數(shù)據(jù)”解決方案并非只有Hadoop一種就轧,許多知名企業(yè)還提供了其他的解決方案。
3.3.2.9.EMC
EMC提供了兩種大數(shù)據(jù)存儲(chǔ)方案田度,即Isilon和Atmos妒御。Isilon能夠提供無(wú)限的橫向擴(kuò)展能力,Atmos是一款云存儲(chǔ)基礎(chǔ)架構(gòu)每币,在內(nèi)容服務(wù)方面携丁,Atmos是很好的解決方案。
在數(shù)據(jù)分析方面兰怠,EMC提供的解決方案梦鉴、提供的產(chǎn)品是Greenplum,Greenplum有兩個(gè)產(chǎn)品揭保,第一是GreenplumDatabase肥橙,GreenplumDatabase是大規(guī)模的并行成立的數(shù)據(jù)庫(kù),它可以管理秸侣、存儲(chǔ)存筏、分析PB量級(jí)的一些結(jié)構(gòu)性數(shù)據(jù),它下載的速度非常高味榛,最高可以達(dá)到每小時(shí)10TB椭坚,速度非常驚人。這是EMC可以提供給企業(yè)搏色、政府善茎,用來(lái)分析海量的數(shù)據(jù)。但是GreenplumDatabase面對(duì)的是結(jié)構(gòu)化數(shù)據(jù)频轿。
很多數(shù)據(jù)超過(guò)90%是非結(jié)構(gòu)化數(shù)據(jù)垂涯,EMC有另外一個(gè)產(chǎn)品是GreenplumHD,GreenplumHD可以把非結(jié)構(gòu)化的數(shù)據(jù)或者是半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)航邢,然后讓GreenplumDatabase去處理耕赘。
3.3.2.10.BigQuery
BigQuery是Google推出的一項(xiàng)Web服務(wù),用來(lái)在云端處理大數(shù)據(jù)膳殷。該服務(wù)讓開(kāi)發(fā)者可以使用Google的架構(gòu)來(lái)運(yùn)行SQL語(yǔ)句對(duì)超級(jí)大的數(shù)據(jù)庫(kù)進(jìn)行操作操骡。
BigQuery允許用戶(hù)上傳他們的超大量數(shù)據(jù)并通過(guò)其直接進(jìn)行交互式分析,從而不必投資建立自己的數(shù)據(jù)中心。Google曾表示BigQuery引擎可以快速掃描高達(dá)70TB未經(jīng)壓縮處理的數(shù)據(jù)当娱,并且可馬上得到分析結(jié)果吃既。大數(shù)據(jù)在云端模型具備很多優(yōu)勢(shì),BigQuery服務(wù)無(wú)需組織提供或建立數(shù)據(jù)倉(cāng)庫(kù)跨细。而B(niǎo)igQuery在安全性和數(shù)據(jù)備份服務(wù)方面也相當(dāng)完善鹦倚。免費(fèi)帳號(hào)可以讓用戶(hù)每月訪(fǎng)問(wèn)高達(dá)100GB的數(shù)據(jù),用戶(hù)也可以付費(fèi)使用額外查詢(xún)和存儲(chǔ)空間冀惭。
3.3.6.大數(shù)據(jù)”與科技文獻(xiàn)信息處理
“大數(shù)據(jù)”目前主要指醫(yī)學(xué)震叙、天文、地理散休、Web日志媒楼、多媒體信息等數(shù)據(jù),鮮有提及文獻(xiàn)信息戚丸。事實(shí)上划址,現(xiàn)在的科技文獻(xiàn)信息日益凸顯出“大數(shù)據(jù)”的特征,主要表現(xiàn)在以下幾個(gè)方面:更新周期縮短限府;數(shù)量龐大夺颤;文獻(xiàn)的類(lèi)型多樣;文獻(xiàn)載體數(shù)字化胁勺;文獻(xiàn)語(yǔ)種多樣化世澜;文獻(xiàn)內(nèi)容交叉;文獻(xiàn)信息密度大署穗。
科技文獻(xiàn)中所含的信息類(lèi)型多樣寥裂,既有結(jié)構(gòu)性數(shù)據(jù),也有非結(jié)構(gòu)性文本和公式案疲,如何利用“大數(shù)據(jù)”技術(shù)對(duì)文獻(xiàn)內(nèi)容進(jìn)行分析封恰,挖掘用戶(hù)訪(fǎng)問(wèn)日志、評(píng)價(jià)反饋等數(shù)據(jù)的價(jià)值褐啡,為用戶(hù)提供服務(wù)成為科技信息服務(wù)業(yè)急需思考和解決的問(wèn)題俭驮。在科技文獻(xiàn)信息處理中,文本分析技術(shù)春贸、語(yǔ)義計(jì)算技術(shù)、數(shù)據(jù)安全需要與“大數(shù)據(jù)”解決方案結(jié)合起來(lái)考慮實(shí)施遗遵,這樣才能更有效地提供知識(shí)服務(wù)萍恕。
3.4.大數(shù)據(jù)處理技術(shù)發(fā)展前景
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,應(yīng)用越來(lái)越廣车要,其發(fā)展前景是很光明的允粤。
3.4.1.大數(shù)據(jù)復(fù)雜度降低
大數(shù)據(jù)技術(shù)的落地將會(huì)有兩個(gè)特點(diǎn):一個(gè)是對(duì)MapReduce依賴(lài)越來(lái)越少,另外一個(gè)是會(huì)把Hadoop技術(shù)深入的應(yīng)用到企業(yè)的軟件架構(gòu)中。對(duì)于第一個(gè)特點(diǎn)类垫,像Cloudera的Impala和微軟的PolyBase這樣的軟件會(huì)得到充分發(fā)展司光,他們繞開(kāi)了MapReduce,直接對(duì)存在HDFS中的數(shù)據(jù)進(jìn)行處理悉患。對(duì)于第二個(gè)特點(diǎn)残家,大規(guī)模的使用Hadoop是個(gè)必然趨勢(shì),漸漸的就會(huì)形成行業(yè)的標(biāo)準(zhǔn)售躁,進(jìn)而成為更有價(jià)值的軟件基礎(chǔ)坞淮,而不僅是自己內(nèi)部使用。
3.4.2.大數(shù)據(jù)細(xì)分市場(chǎng)
大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展陪捷,將會(huì)創(chuàng)造出一些新的細(xì)分市場(chǎng)回窘。例如,以數(shù)據(jù)分析和處理為主的高級(jí)數(shù)據(jù)服務(wù)市袖,將出現(xiàn)以數(shù)據(jù)分析作為服務(wù)產(chǎn)品提交的分析即服務(wù)(AnalyzeasaService)業(yè)務(wù);將多種信息整合管理啡直,創(chuàng)造對(duì)大數(shù)據(jù)統(tǒng)一的訪(fǎng)問(wèn)和分析的組件產(chǎn)品;基于社交網(wǎng)絡(luò)的社交大數(shù)據(jù)分析;甚至?xí)霈F(xiàn)大數(shù)據(jù)技能的培訓(xùn)市場(chǎng),教授數(shù)據(jù)分析課程等苍碟。
3.4.3.大數(shù)據(jù)開(kāi)源
開(kāi)源軟件為大數(shù)據(jù)市場(chǎng)帶來(lái)更多機(jī)會(huì)酒觅。與人們的傳統(tǒng)理解不同,大數(shù)據(jù)市場(chǎng)開(kāi)源軟件的盛行不會(huì)抑制市場(chǎng)的商業(yè)機(jī)會(huì)驰怎,相反開(kāi)源軟件將會(huì)給基礎(chǔ)架構(gòu)硬件阐滩、應(yīng)用程序開(kāi)發(fā)工具、應(yīng)用县忌、服務(wù)等各個(gè)方面的相關(guān)領(lǐng)域帶來(lái)更多的機(jī)會(huì)掂榔。
3.4.4.Hadoop將加速發(fā)展
做為大數(shù)據(jù)領(lǐng)域的代表技術(shù),許多企業(yè)都把明年的計(jì)劃聚焦在Hadoop之上症杏。據(jù)預(yù)測(cè)装获,用戶(hù)對(duì)Hadoop的優(yōu)化將更注重硬件,同時(shí)厉颤,對(duì)企業(yè)友好的Hadoop技術(shù)市場(chǎng)將達(dá)到前所未有的高峰穴豫。從整體上說(shuō),不僅是Hadoop本身本會(huì)得到迅猛的發(fā)展逼友,同時(shí)Hadoop在多個(gè)數(shù)據(jù)中心中的配置和無(wú)縫集成技術(shù)也將成為熱門(mén)精肃。Hadoop的專(zhuān)業(yè)知識(shí)正在飛速增長(zhǎng),但是這方面優(yōu)秀的人才仍然很缺乏帜乞∷颈В基于SQL的Hadoop工具將會(huì)得到持續(xù)發(fā)展”。
3.4.5.打包的大數(shù)據(jù)行業(yè)分析應(yīng)用
隨著大數(shù)據(jù)逐漸走向各個(gè)行業(yè)黎烈,基于行業(yè)的大數(shù)據(jù)分析應(yīng)用需求也日益增長(zhǎng)习柠。未來(lái)幾年中針對(duì)特定行業(yè)和業(yè)務(wù)流程的分析應(yīng)用將會(huì)以預(yù)打包的形式出現(xiàn)匀谣,這將為大數(shù)據(jù)技術(shù)供應(yīng)商打開(kāi)新的市場(chǎng)。這些分析應(yīng)用內(nèi)容還會(huì)覆蓋很多行業(yè)的專(zhuān)業(yè)知識(shí)资溃,也會(huì)吸引大量行業(yè)軟件開(kāi)發(fā)公司的投入武翎。
3.4.6.大數(shù)據(jù)分析的革命性方法出現(xiàn)
在大數(shù)據(jù)分析上,將出現(xiàn)革命性的新方法溶锭。就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣宝恶,大數(shù)據(jù)可能是新一波技術(shù)革命。從前的很多算法和基礎(chǔ)理論可能會(huì)產(chǎn)生理論級(jí)別的突破暖途。
3.4.7.大數(shù)據(jù)與云計(jì)算:深度融合
大數(shù)據(jù)處理離不開(kāi)云計(jì)算技術(shù)卑惜,云計(jì)算為大數(shù)據(jù)提供彈性可擴(kuò)展的基礎(chǔ)設(shè)施支撐環(huán)境以及數(shù)據(jù)服務(wù)的高效模式,大數(shù)據(jù)則為云計(jì)算提供了新的商業(yè)價(jià)值驻售,大數(shù)據(jù)技術(shù)與云計(jì)算技術(shù)必有更完美的結(jié)合露久。同樣的,云計(jì)算欺栗、物聯(lián)網(wǎng)毫痕、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài),既是產(chǎn)生大數(shù)據(jù)的地方迟几,也是需要大數(shù)據(jù)分析方法的領(lǐng)域消请。
3.4.8.大數(shù)據(jù)一體機(jī)陸續(xù)發(fā)布
自云計(jì)算和大數(shù)據(jù)概念被提出后,針對(duì)該市場(chǎng)推出的軟硬件一體化設(shè)備就層出不窮类腮。在未來(lái)幾年里臊泰,數(shù)據(jù)倉(cāng)庫(kù)一體機(jī)、NoSQL一體機(jī)以及其它一些將多種技術(shù)結(jié)合的一體化設(shè)備將進(jìn)一步快速發(fā)展蚜枢。
四缸逃、基于基站大數(shù)據(jù)應(yīng)用及案例
4.1.氣象災(zāi)害應(yīng)急短信發(fā)布平臺(tái)
4.1.1.概述
4.1.1.1.項(xiàng)目背景
為有效預(yù)防、及時(shí)響應(yīng)和處置氣象災(zāi)害厂抽,保證氣象災(zāi)害應(yīng)急工作高效需频、有序進(jìn)行,最大限度地減輕或者避免氣象災(zāi)害造成的人員傷亡筷凤、財(cái)產(chǎn)損失以及對(duì)經(jīng)濟(jì)社會(huì)發(fā)展和生態(tài)環(huán)境保護(hù)產(chǎn)生的不利影響昭殉,將災(zāi)害信息及時(shí)通知相關(guān)人員,建設(shè)氣象災(zāi)害應(yīng)急短信發(fā)布平臺(tái)藐守。
4.1.1.2.平臺(tái)概述
本平臺(tái)是利用手機(jī)進(jìn)出特定小區(qū)需與交換機(jī)交換位置信息的特性挪丢,結(jié)合目前移動(dòng)通信網(wǎng)絡(luò)及短消息發(fā)布平臺(tái),實(shí)現(xiàn)在特定區(qū)域卢厂、特定時(shí)間對(duì)特定客戶(hù)群吃靠,發(fā)送特定服務(wù)短信的個(gè)性化信息服務(wù)。
4.1.2.平臺(tái)建設(shè)特點(diǎn)與原則
4.1.2.1.建設(shè)特點(diǎn)
平臺(tái)具有以下特點(diǎn):
針對(duì)性強(qiáng):特定區(qū)域足淆、特定時(shí)間巢块、特定客群、特定服務(wù)短信巧号,投放準(zhǔn)確族奢,不會(huì)影響特定區(qū)域外的用戶(hù);
收看率高:手機(jī)自動(dòng)接收丹鸿,收看率高越走,見(jiàn)效快,比傳統(tǒng)媒體信息更深入用戶(hù)靠欢;
發(fā)布便捷:客戶(hù)通過(guò)網(wǎng)絡(luò)可以直接申請(qǐng)發(fā)布信息廊敌,從申請(qǐng)到發(fā)布僅需幾小時(shí),可以及時(shí)修改门怪;
成本低廉:定向發(fā)送有的放矢骡澈,平均成本更低廉。
4.1.2.2.建設(shè)原則
標(biāo)準(zhǔn)化:
具有互操作性掷空,可用性肋殴,可靠性,可擴(kuò)充性坦弟,可管理性护锤,建立一個(gè)開(kāi)放式,遵循國(guó)際標(biāo)準(zhǔn)的網(wǎng)絡(luò)系統(tǒng)酿傍。
先進(jìn)性:
既要保證網(wǎng)絡(luò)的先進(jìn)性烙懦,同時(shí)也要兼顧技術(shù)的成熟性。
安全性:
對(duì)于安全性我們將通過(guò)對(duì)用戶(hù)的區(qū)域劃分赤炒,建議選用專(zhuān)用防火墻實(shí)現(xiàn)對(duì)本地資源的安全保護(hù)氯析。
擴(kuò)展性:
網(wǎng)絡(luò)設(shè)計(jì)必須為今后的擴(kuò)充留有足夠的余地,以保護(hù)用戶(hù)的投資可霎,保證今后的網(wǎng)絡(luò)擴(kuò)充升級(jí)能力魄鸦。
保護(hù)投資:
每個(gè)設(shè)備都進(jìn)行嚴(yán)格的選型,在滿(mǎn)足設(shè)計(jì)原則的功能前提下癣朗,提供最經(jīng)濟(jì)的設(shè)備配置方案拾因。
可管理:
先進(jìn)的網(wǎng)絡(luò)管理可為多業(yè)務(wù)網(wǎng)絡(luò)提供安全運(yùn)行的基礎(chǔ)。
4.1.2.3.大數(shù)據(jù)管理平臺(tái)特點(diǎn)
獨(dú)特的云任務(wù)管理技術(shù)——使系統(tǒng)的并行效率提升顯著旷余、硬件資源被充分用于大數(shù)據(jù)處理绢记,縮短處理時(shí)間、節(jié)約硬件成本正卧。
獨(dú)特的多層分布式緩存技術(shù)——使系統(tǒng)的吞吐量更大蠢熄,運(yùn)算性能更高,數(shù)據(jù)更加安全可靠炉旷。
雙引擎技術(shù)——云計(jì)算引擎與傳統(tǒng)計(jì)算引擎協(xié)同工作签孔,使得業(yè)務(wù)支持類(lèi)型更豐富叉讥、三方對(duì)接更方便、并實(shí)現(xiàn)了應(yīng)用前端到后端的大數(shù)據(jù)處理以及秒級(jí)的響應(yīng)速度饥追。
獨(dú)特的云目錄管理技術(shù)——使得數(shù)據(jù)存儲(chǔ)更完整图仓,數(shù)據(jù)回收更靈活更即時(shí),數(shù)據(jù)的近線(xiàn)存儲(chǔ)更方便但绕。
實(shí)用的監(jiān)控體系——全面監(jiān)控所有云節(jié)點(diǎn)救崔、圖形化的指標(biāo)監(jiān)控、完備的存活與性能告警捏顺、對(duì)于分析集群工作狀態(tài)六孵、性能瓶頸識(shí)別、故障分析提供實(shí)際數(shù)據(jù)支持幅骄。
方便快捷的安裝——提供圖形與命令行2種安裝模式劫窒,適合本地與遠(yuǎn)程部署。部署操作基本自動(dòng)化昌执,適合于大規(guī)模集群的快速部署安裝烛亦。
4.1.3.平臺(tái)整體架構(gòu)
4.1.3.1.建設(shè)原理
本平臺(tái)是通過(guò)分析移動(dòng)通訊過(guò)程中的各種信令過(guò)程,獲得用戶(hù)當(dāng)前的位置信息懂拾。當(dāng)用戶(hù)的位置信息與業(yè)務(wù)選擇發(fā)送的特定區(qū)域一致時(shí)煤禽,為用戶(hù)發(fā)布業(yè)務(wù)定制的短信。為獲得準(zhǔn)確岖赋、全面的用戶(hù)信息(當(dāng)前位置信息和用戶(hù)手機(jī)號(hào))檬果,需要監(jiān)控業(yè)務(wù)特定區(qū)域所屬的MSC/VLR到周邊的所有信令鏈路(即下面的拓?fù)鋱D中雙向箭頭所對(duì)應(yīng)的物理鏈路)。本項(xiàng)目使用的信令數(shù)據(jù)由信令監(jiān)測(cè)系統(tǒng)定時(shí)提供唐断。
移動(dòng)通信網(wǎng)絡(luò)部分拓?fù)鋱D如下所示:
4.1.3.2.平臺(tái)總體設(shè)計(jì)
1.平臺(tái)總體結(jié)構(gòu)
總體架構(gòu)圖
系統(tǒng)主要由信令處理子系統(tǒng)选脊、短信發(fā)送子系統(tǒng)、管理子系統(tǒng)脸甘、大數(shù)據(jù)管理平臺(tái)四部分組成恳啥。
1)信令處理子系統(tǒng)
本子系統(tǒng)經(jīng)過(guò)復(fù)雜的信令分析和匹配,最終得到用戶(hù)的手機(jī)號(hào)和當(dāng)前位置信息丹诀,并將這些信息保存在內(nèi)存數(shù)據(jù)庫(kù)中钝的,并同步到關(guān)系數(shù)據(jù)庫(kù)中。
2)短信發(fā)送子系統(tǒng)
本子系統(tǒng)經(jīng)過(guò)對(duì)用戶(hù)手機(jī)號(hào)和位置信息的分析铆遭,以及與業(yè)務(wù)條件是否匹配硝桩,得到是否要給用戶(hù)下發(fā)短信。如果要下發(fā)短信枚荣,短信業(yè)務(wù)應(yīng)用系統(tǒng)將要下發(fā)的短信和用戶(hù)手機(jī)號(hào)寫(xiě)入運(yùn)營(yíng)商的10086短信下發(fā)系統(tǒng)碗脊,由10086短信下發(fā)系統(tǒng)為用戶(hù)下發(fā)信息。
3)大數(shù)據(jù)管理系統(tǒng)
存儲(chǔ)與用戶(hù)橄妆、位置相關(guān)的數(shù)據(jù)衙伶,供短信業(yè)務(wù)應(yīng)用系統(tǒng)判斷時(shí)使用祈坠。使系統(tǒng)的并行效率提升顯著、硬件資源被充分用于大數(shù)據(jù)處理矢劲,縮短處理時(shí)間颁虐、節(jié)約硬件成本。
4)系統(tǒng)管理子系統(tǒng)
本服務(wù)提供人性化的遠(yuǎn)程登陸界面服務(wù)卧须,為客戶(hù)提供了用戶(hù)管理、權(quán)限管理儒陨、日志管理花嘶、統(tǒng)計(jì)分析、數(shù)據(jù)配置等豐富功能蹦漠。
氣象災(zāi)害應(yīng)急短信發(fā)布平臺(tái)采用信令數(shù)據(jù)接入椭员、數(shù)據(jù)處理整合、頁(yè)面展示三層架構(gòu)的方式實(shí)現(xiàn)笛园。
信令數(shù)據(jù)接入主要獲取信令數(shù)據(jù)隘击,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。由信令監(jiān)測(cè)平臺(tái)對(duì)外提供信令數(shù)據(jù)研铆,氣象災(zāi)害應(yīng)急短信發(fā)布平臺(tái)中的信令處理子系統(tǒng)通過(guò)網(wǎng)管DCN網(wǎng)絡(luò)與信令監(jiān)測(cè)系統(tǒng)對(duì)接埋同,從而實(shí)現(xiàn)氣象災(zāi)害應(yīng)急短信發(fā)布平臺(tái)周期性地從信令監(jiān)測(cè)系統(tǒng)批量采集信令數(shù)據(jù)的功能,并對(duì)原始性數(shù)據(jù)進(jìn)行預(yù)處理棵红。
數(shù)據(jù)處理采用專(zhuān)用數(shù)據(jù)統(tǒng)計(jì)算法和數(shù)據(jù)發(fā)掘分析技術(shù)凶赁,根據(jù)實(shí)時(shí)采集到的信令接口數(shù)據(jù),及定期更新的基站逆甜、小區(qū)虱肄、場(chǎng)所及號(hào)碼段數(shù)據(jù),綜合分析各個(gè)視角的數(shù)據(jù)交煞。
頁(yè)面展現(xiàn)層具備將各種統(tǒng)計(jì)分析結(jié)果進(jìn)行圖表化咏窿、圖形化的展示,并可以多種格式導(dǎo)出素征。
4.1.3.3.平臺(tái)技術(shù)思路
平臺(tái)本著可靠穩(wěn)定的宗旨進(jìn)行整個(gè)系統(tǒng)的技術(shù)構(gòu)建集嵌,主要遵循以下技術(shù)思路:
擴(kuò)展性原則:平臺(tái)具有高可擴(kuò)展性,既能適應(yīng)移動(dòng)通信網(wǎng)絡(luò)結(jié)構(gòu)稚茅、通信協(xié)議的擴(kuò)展變更纸淮,也能適應(yīng)不斷變化的應(yīng)用需求;
模塊化設(shè)計(jì):平臺(tái)采用模塊化設(shè)計(jì)亚享,并構(gòu)建業(yè)務(wù)生成平臺(tái)咽块;
可移植性原則:平臺(tái)采用Java開(kāi)發(fā)體系,與系統(tǒng)平臺(tái)無(wú)關(guān)欺税,確保應(yīng)用系統(tǒng)的可移植性侈沪。
先進(jìn)性原則:平臺(tái)采用電信級(jí)設(shè)計(jì)標(biāo)準(zhǔn)揭璃,在設(shè)計(jì)思想、系統(tǒng)架構(gòu)亭罪、采用技術(shù)瘦馍、選用平臺(tái)上均需要具有一定的先進(jìn)性、前瞻性应役,考慮一定時(shí)期內(nèi)業(yè)務(wù)的增長(zhǎng)情组。
易用性原則:提供友好的用戶(hù)操作界面,具備直觀易用的人機(jī)界面箩祥,簡(jiǎn)化復(fù)雜操作步驟院崇。
穩(wěn)定性原則:具備高可靠性和高穩(wěn)定性,能夠適應(yīng)海量信令數(shù)據(jù)處理袍祖。在系統(tǒng)設(shè)計(jì)底瓣、開(kāi)發(fā)和應(yīng)用時(shí),從系統(tǒng)結(jié)構(gòu)蕉陋、技術(shù)措施捐凭、軟硬件平臺(tái)、技術(shù)服務(wù)和維護(hù)響應(yīng)能力等方面綜合考慮凳鬓,確保系統(tǒng)較高的性能和較少的故障率茁肠。
4.2.旅游客源分析
4.2.1.整體方案
4.2.1.1.方案思路
移動(dòng)運(yùn)營(yíng)商側(cè)擁有豐富的網(wǎng)絡(luò)信令數(shù)據(jù),用戶(hù)在每一個(gè)業(yè)務(wù)應(yīng)用和操作時(shí)村视,包括語(yǔ)音通話(huà)官套、收發(fā)短信等業(yè)務(wù)時(shí),都會(huì)在網(wǎng)絡(luò)側(cè)記錄用戶(hù)相關(guān)的基站位置信息蚁孔,除此之外還有用戶(hù)的主動(dòng)位置更新(更新LAI)和定期的位置更新(一般為2小時(shí)以?xún)?nèi))奶赔,也會(huì)記錄用戶(hù)的位置信息,通過(guò)這些信令數(shù)據(jù)上下文杠氢,我們可以通過(guò)基站描點(diǎn)勾勒出用戶(hù)的活動(dòng)軌跡站刑。在利用運(yùn)營(yíng)商在旅游景區(qū)的基站信息同景區(qū)進(jìn)行有效的結(jié)合,可以實(shí)時(shí)分析各景區(qū)的移動(dòng)本網(wǎng)當(dāng)前用戶(hù)人數(shù)及本網(wǎng)當(dāng)前旅游到達(dá)總數(shù)鼻百。
通過(guò)對(duì)用戶(hù)進(jìn)一步分析其來(lái)源的等相關(guān)情況绞旅;
通過(guò)對(duì)用戶(hù)進(jìn)一步分析駐留時(shí)長(zhǎng)情況;
通過(guò)分析各個(gè)旅游景區(qū)的人流密度等相關(guān)情況温艇;
有了這部分本網(wǎng)旅游用戶(hù)的數(shù)據(jù)就可以進(jìn)一步分析有個(gè)旅游用戶(hù)相關(guān)如來(lái)源地等因悲,以及景區(qū)相關(guān)的如景區(qū)熱度排名等相關(guān)數(shù)據(jù)椒丧,同時(shí)可以通過(guò)全省進(jìn)一步歸納熱點(diǎn)旅游線(xiàn)路等生均,下面章節(jié)會(huì)詳細(xì)的介紹川抡。
統(tǒng)計(jì)出移動(dòng)本網(wǎng)用戶(hù)數(shù)據(jù)后茄唐,可以根據(jù)移動(dòng)用戶(hù)占比情況即比例系數(shù)反推旅游景區(qū)的用戶(hù)總數(shù)谜酒,占比情況如下圖韩玩,中移動(dòng)占比在72%佑吝。
4.2.1.2.系統(tǒng)架構(gòu)
旅游客源分析應(yīng)用平臺(tái)采用信令數(shù)據(jù)采集接入骨饿、數(shù)據(jù)分析整合、頁(yè)面展示三層架構(gòu)的方式實(shí)現(xiàn)顾翼。
信令數(shù)據(jù)采集接入層主要獲取信令數(shù)據(jù)投放,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。本層與中興信令監(jiān)測(cè)平臺(tái)接口适贸。
數(shù)據(jù)處理層采用專(zhuān)用數(shù)據(jù)統(tǒng)計(jì)算法和數(shù)據(jù)發(fā)掘分析技術(shù)灸芳,根據(jù)實(shí)時(shí)采集到的信令接口數(shù)據(jù),及定期更新的基站拜姿、小區(qū)耗绿、場(chǎng)所及號(hào)碼段數(shù)據(jù),綜合分析各個(gè)視角的數(shù)據(jù)砾隅,包括統(tǒng)計(jì)區(qū)域?qū)崟r(shí)流量數(shù)據(jù)、流量總量數(shù)據(jù)债蜜、流量密度數(shù)據(jù)晴埂、流量駐留數(shù)據(jù)、景點(diǎn)流量告警等寻定。
頁(yè)面展現(xiàn)層具備將各種統(tǒng)計(jì)分析結(jié)果進(jìn)行圖表化儒洛、圖形化、地圖化的展示狼速,并可以多種格式導(dǎo)出琅锻。同時(shí)通過(guò)界面建立同接觸渠道的接口,包括短彩信向胡、12580接口恼蓬,可以通過(guò)接口推送給商家及用戶(hù)相關(guān)的實(shí)時(shí)信息。
特別推薦:
【智慧城市圈子邱文斌】 訂閱號(hào):qwb_2014
智慧城市圈子:專(zhuān)注行業(yè)概念普及僵芹、報(bào)告分析及趨勢(shì)等的分享处硬。眾智庫(kù)是圈子的運(yùn)營(yíng)機(jī)構(gòu),是在民政局備案的非營(yíng)利性社會(huì)組織,主要目的是凝聚智慧城市專(zhuān)家和企業(yè)資源,為智慧城市規(guī)劃拇派、建設(shè)荷辕、運(yùn)營(yíng)和產(chǎn)業(yè)發(fā)展提供智力支持,倡導(dǎo)大小公司優(yōu)勢(shì)互補(bǔ)件豌,攜手共贏疮方。
?
產(chǎn)品推薦1:智慧消防:水源采集系統(tǒng)方案
產(chǎn)品推薦2:激光投影:最佳的大屏解決方案
產(chǎn)品推薦3:智慧展廳:綜合應(yīng)用解決方案
投稿/合作郵箱:3107232748@qq.com
管理員微信號(hào):3107232748
方案價(jià)值網(wǎng): www.fangan100.com