姓名:馮坤 學(xué)號(hào)16050310070 物理與光電工程學(xué)院
【嵌牛導(dǎo)讀】:大數(shù)據(jù)(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強(qiáng)的決策力婆翔、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。“大數(shù)據(jù)”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫(kù)克耶在編寫《大數(shù)據(jù)時(shí)代》中提出斗锭,指不用隨機(jī)分析法(抽樣調(diào)查)的捷徑,而是采用所有數(shù)據(jù)進(jìn)行分析處理失球。大數(shù)據(jù)有4V特點(diǎn)岖是,即Volume(大量)帮毁、Velocity(高速)、Variety(多樣)豺撑、Value(價(jià)值)烈疚。
【嵌牛鼻子】:大數(shù)據(jù)
【嵌牛提問】:大數(shù)據(jù)常見的問題有哪些?
【嵌牛正文】:
1.什么是大數(shù)據(jù)?
大數(shù)據(jù)(big data),是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉聪轿、管理和處理的數(shù)據(jù)集合爷肝。
在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理陆错。
大數(shù)據(jù)的4V特點(diǎn):Volume(大量)灯抛、Velocity(高速)、Variety(多樣)音瓷、Value(價(jià)值)对嚼。
對(duì)于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義⊥饬“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力猪半、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量兔朦、高增長(zhǎng)率和多樣化的信息資產(chǎn)偷线。
根據(jù)維基百科的定義,大數(shù)據(jù)是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉沽甥、管理和處理的數(shù)據(jù)集合声邦。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理摆舟。換言之亥曹,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵恨诱,在于提高對(duì)數(shù)據(jù)的“加工能力”媳瞪,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看照宝,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分蛇受。大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)厕鹃。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘兢仰,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)剂碴、虛擬化技術(shù)把将。
2.大數(shù)據(jù)時(shí)代是什么意思?
大數(shù)據(jù)時(shí)代就是說,在未來忆矛,我們認(rèn)為會(huì)存在這樣一個(gè)時(shí)代察蹲。那個(gè)時(shí)代里,幾乎我們每一個(gè)舉動(dòng),都會(huì)被記錄递览,并變成數(shù)據(jù)被存儲(chǔ)起來叼屠,無數(shù)的數(shù)據(jù)就組合成了你本人的一個(gè)信息庫(kù)。通過這個(gè)信息庫(kù)绞铃,你的一言一行镜雨,你的思想都變得可預(yù)測(cè)。
最早提出“大數(shù)據(jù)”時(shí)代到來的是全球知名咨詢公司麥肯錫儿捧,麥肯錫稱:“數(shù)據(jù)荚坞,已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素菲盾。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用颓影,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來±良” “大數(shù)據(jù)”在物理學(xué)诡挂、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事临谱、金融璃俗、通訊等行業(yè)存在已有時(shí)日,卻因?yàn)榻陙砘ヂ?lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注悉默。
大數(shù)據(jù)作為云計(jì)算城豁、物聯(lián)網(wǎng)之后IT行業(yè)又一大顛覆性的技術(shù)革命。云計(jì)算主要為數(shù)據(jù)資產(chǎn)提供了保管抄课、訪問的場(chǎng)所和渠道唱星,而數(shù)據(jù)才是真正有價(jià)值的資產(chǎn)。企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息跟磨、互聯(lián)網(wǎng)世界中的商品物流信息间聊,互聯(lián)網(wǎng)世界中的人與人交互信息、位置信息等抵拘,其數(shù)量將遠(yuǎn)遠(yuǎn)超越現(xiàn)有企業(yè)IT架構(gòu)和基礎(chǔ)設(shè)施的承載能力哎榴,實(shí)時(shí)性要求也將大大超越現(xiàn)有的計(jì)算能力。如何盤活這些數(shù)據(jù)資產(chǎn)仑濒,使其為國(guó)家治理叹话、企業(yè)決策乃至個(gè)人生活服務(wù),是大數(shù)據(jù)的核心議題墩瞳,也是云計(jì)算內(nèi)在的靈魂和必然的升級(jí)方向驼壶。
3.大數(shù)據(jù)、數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別
大數(shù)據(jù)喉酌、數(shù)據(jù)分析热凹、數(shù)據(jù)挖掘的區(qū)別是泵喘,大數(shù)據(jù)是互聯(lián)網(wǎng)的海量數(shù)據(jù)挖掘,而數(shù)據(jù)挖掘更多是針對(duì)內(nèi)部企業(yè)行業(yè)小眾化的數(shù)據(jù)挖掘般妙,數(shù)據(jù)分析就是進(jìn)行做出針對(duì)性的分析和診斷纪铺,大數(shù)據(jù)需要分析的是趨勢(shì)和發(fā)展,數(shù)據(jù)挖掘主要發(fā)現(xiàn)的是問題和診斷:
(1)大數(shù)據(jù)(big data):
指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉碟渺、管理和處理的數(shù)據(jù)集合鲜锚,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量苫拍、高增長(zhǎng)率和多樣化的信息資產(chǎn)芜繁;
在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理绒极。大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)骏令、Velocity(高速)、Variety(多樣)垄提、Value(價(jià)值)Veracity(真實(shí)性) 榔袋。
(2)數(shù)據(jù)分析:
是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程铡俐。這一過程也是質(zhì)量管理體系的支持過程凰兑。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷高蜂,以便采取適當(dāng)行動(dòng)聪黎。
數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立罕容,但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能备恤,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物锦秒。
(3)數(shù)據(jù)挖掘(英語:Data mining):
又譯為資料探勘露泊、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases旅择,簡(jiǎn)稱:KDD)中的一個(gè)步驟惭笑。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)生真,并通過統(tǒng)計(jì)沉噩、在線分析處理、情報(bào)檢索柱蟀、機(jī)器學(xué)習(xí)川蒙、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。
簡(jiǎn)而言之:
大數(shù)據(jù)是范圍比較廣的數(shù)據(jù)分析和數(shù)據(jù)挖掘长已。
按照數(shù)據(jù)分析的流程來說畜眨,數(shù)據(jù)挖掘工作較數(shù)據(jù)分析工作靠前些扯躺,二者又有重合的地方嘱兼,數(shù)據(jù)挖掘側(cè)重?cái)?shù)據(jù)的清洗和梳理。
數(shù)據(jù)分析處于數(shù)據(jù)處理的最末端,是最后階段氮趋。
數(shù)據(jù)分析和數(shù)據(jù)挖掘的分界、概念比較模糊谤逼,模糊的意思是二者很難區(qū)分再芋。
大數(shù)據(jù)概念更為廣泛,是把創(chuàng)新的思維氓侧、信息技術(shù)悬垃、統(tǒng)計(jì)學(xué)等等技術(shù)的綜合體,每個(gè)人限于學(xué)術(shù)背景甘苍、技術(shù)背景尝蠕,概述的都不一樣。
4.大數(shù)據(jù)可以做什么?
(1)對(duì)大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)
移動(dòng)互聯(lián)網(wǎng)载庭、物聯(lián)網(wǎng)看彼、社交網(wǎng)絡(luò)、數(shù)字家庭囚聚、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài)靖榕,這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計(jì)算為這些海量顽铸、多樣化的大數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái)茁计。通過對(duì)不同來源數(shù)據(jù)的管理、處理谓松、分析與優(yōu)化星压,將結(jié)果反饋到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值鬼譬。
大數(shù)據(jù)具有催生社會(huì)變革的能量娜膘。但釋放這種能量,需要嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)治理优质、富有洞見的數(shù)據(jù)分析和激發(fā)管理創(chuàng)新的環(huán)境(Ramayya Krishnan,卡內(nèi)基·梅隆大學(xué)海因茲學(xué)院院長(zhǎng))竣贪。
(2)大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長(zhǎng)的新引擎
面向大數(shù)據(jù)市場(chǎng)的新技術(shù)、新產(chǎn)品巩螃、新服務(wù)演怎、新業(yè)態(tài)會(huì)不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域避乏,大數(shù)據(jù)將對(duì)芯片爷耀、存儲(chǔ)產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲(chǔ)處理服務(wù)器淑际、內(nèi)存計(jì)算等市場(chǎng)畏纲。在軟件與服務(wù)領(lǐng)域扇住,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展盗胀。
(3)大數(shù)據(jù)利用將成為提高核心競(jìng)爭(zhēng)力的關(guān)鍵因素各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)變“數(shù)據(jù)驅(qū)動(dòng)”
對(duì)大數(shù)據(jù)的分析可以使零售商實(shí)時(shí)掌握市場(chǎng)動(dòng)態(tài)并迅速做出應(yīng)對(duì);可以為商家制定更加精準(zhǔn)有效的營(yíng)銷策略提供決策支持;可以幫助企業(yè)為消費(fèi)者提供更加及時(shí)和個(gè)性化的服務(wù);在醫(yī)療領(lǐng)域艘蹋,可提高診斷準(zhǔn)確性和藥物有效性;在公共事業(yè)領(lǐng)域,大數(shù)據(jù)也開始發(fā)揮促進(jìn)經(jīng)濟(jì)發(fā)展票灰、維護(hù)社會(huì)穩(wěn)定等方面的重要作用女阀。
(4)大數(shù)據(jù)時(shí)代科學(xué)研究的方法手段將發(fā)生重大改變
例如,抽樣調(diào)查是社會(huì)科學(xué)的基本研究方法屑迂。在大數(shù)據(jù)時(shí)代浸策,可通過實(shí)時(shí)監(jiān)測(cè)、跟蹤研究對(duì)象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù)惹盼,進(jìn)行挖掘分析庸汗,揭示出規(guī)律性的東西,提出研究結(jié)論和對(duì)策手报。
5.大數(shù)據(jù)的商業(yè)價(jià)值
(1)對(duì)顧客群體細(xì)分
“大數(shù)據(jù)”可以對(duì)顧客群體細(xì)分蚯舱,然后對(duì)每個(gè)群體量體裁衣般的采取獨(dú)特的行動(dòng)。瞄準(zhǔn)特定的顧客群體來進(jìn)行營(yíng)銷和服務(wù)是商家一直以來的追求掩蛤。云存儲(chǔ)的海量數(shù)據(jù)和“大數(shù)據(jù)”的分析技術(shù)使得對(duì)消費(fèi)者的實(shí)時(shí)和極端的細(xì)分有了成本效率極高的可能枉昏。
(2)模擬實(shí)境
運(yùn)用“大數(shù)據(jù)”模擬實(shí)境,發(fā)掘新的需求和提高投入的回報(bào)率∽崮瘢現(xiàn)在越來越多的產(chǎn)品中都裝有傳感器兄裂,汽車和智能手機(jī)的普及使得可收集數(shù)據(jù)呈現(xiàn)爆炸性增長(zhǎng)。Blog阳藻、Twitter晰奖、Facebook和微博等社交網(wǎng)絡(luò)也在產(chǎn)生著海量的數(shù)據(jù)。
云計(jì)算和“大數(shù)據(jù)”分析技術(shù)使得商家可以在成本效率較高的情況下稚配,實(shí)時(shí)地把這些數(shù)據(jù)連同交易行為的數(shù)據(jù)進(jìn)行儲(chǔ)存和分析畅涂。交易過程港华、產(chǎn)品使用和人類行為都可以數(shù)據(jù)化道川。“大數(shù)據(jù)”技術(shù)可以把這些數(shù)據(jù)整合起來進(jìn)行數(shù)據(jù)挖掘立宜,從而在某些情況下通過模型模擬來判斷不同變量(比如不同地區(qū)不同促銷方案)的情況下何種方案投入回報(bào)最高冒萄。
(3)提高投入回報(bào)率
提高“大數(shù)據(jù)”成果在各相關(guān)部門的分享程度,提高整個(gè)管理鏈條和產(chǎn)業(yè)鏈條的投入回報(bào)率橙数∽鹆鳎“大數(shù)據(jù)”能力強(qiáng)的部門可以通過云計(jì)算、互聯(lián)網(wǎng)和內(nèi)部搜索引擎把”大數(shù)據(jù)”成果和“大數(shù)據(jù)”能力比較薄弱的部門分享灯帮,幫助他們利用“大數(shù)據(jù)”創(chuàng)造商業(yè)價(jià)值崖技。
(4)數(shù)據(jù)存儲(chǔ)空間出租
企業(yè)和個(gè)人有著海量信息存儲(chǔ)的需求逻住,只有將數(shù)據(jù)妥善存儲(chǔ),才有可能進(jìn)一步挖掘其潛在價(jià)值迎献。具體而言瞎访,這塊業(yè)務(wù)模式又可以細(xì)分為針對(duì)個(gè)人文件存儲(chǔ)和針對(duì)企業(yè)用戶兩大類。主要是通過易于使用的API吁恍,用戶可以方便地將各種數(shù)據(jù)對(duì)象放在云端扒秸,然后再像使用水、電一樣按用量收費(fèi)冀瓦。目前已有多個(gè)公司推出相應(yīng)服務(wù)伴奥,如亞馬遜、網(wǎng)易翼闽、諾基亞等拾徙。運(yùn)營(yíng)商也推出了相應(yīng)的服務(wù),如中國(guó)移動(dòng)的彩云業(yè)務(wù)感局。
(5)管理客戶關(guān)系
客戶管理應(yīng)用的目的是根據(jù)客戶的屬性(包括自然屬性和行為屬性)锣吼,從不同角度深層次分析客戶、了解客戶蓝厌,以此增加新的客戶玄叠、提高客戶的忠誠(chéng)度、降低客戶流失率拓提、提高客戶消費(fèi)等读恃。對(duì)中小客戶來說,專門的CRM顯然大而貴代态。不少中小商家將飛信作為初級(jí)CRM來使用寺惫。比如把老客戶加到飛信群里,在群朋友圈里發(fā)布新產(chǎn)品預(yù)告蹦疑、特價(jià)銷售通知西雀,完成售前售后服務(wù)等。
(6)個(gè)性化精準(zhǔn)推薦
在運(yùn)營(yíng)商內(nèi)部歉摧,根據(jù)用戶喜好推薦各類業(yè)務(wù)或應(yīng)用是常見的艇肴,比如應(yīng)用商店軟件推薦、IPTV視頻節(jié)目推薦等叁温,而通過關(guān)聯(lián)算法再悼、文本摘要抽取、情感分析等智能分析算法后膝但,可以將之延伸到商用化服務(wù)冲九,利用數(shù)據(jù)挖掘技術(shù)幫助客戶進(jìn)行精準(zhǔn)營(yíng)銷,今后盈利可以來自于客戶增值部分的分成跟束。
以日常的“垃圾短信”為例莺奸,信息并不都是“垃圾”丑孩,因?yàn)槭盏降娜瞬⒉恍枰灰暈槔Mㄟ^用戶行為數(shù)據(jù)進(jìn)行分析后灭贷,可以給需要的人發(fā)送需要的信息嚎杨,這樣“垃圾短信”就成了有價(jià)值的信息。在日本的麥當(dāng)勞氧腰,用戶在手機(jī)上下載優(yōu)惠券枫浙,再去餐廳用運(yùn)營(yíng)商DoCoMo的手機(jī)錢包優(yōu)惠支付。運(yùn)營(yíng)商和麥當(dāng)勞搜集相關(guān)消費(fèi)信息古拴,例如經(jīng)常買什么漢堡箩帚,