????要想給他人一杯水向叉,那自己至少得有一桶水。作為一頭教獅【也算一只程序猿】嗦董,這種狩獵進(jìn)食的本領(lǐng)也要不斷提升母谎。筆者最近一直在跟數(shù)據(jù)打交道,順便想來聊一聊大數(shù)據(jù)京革。
????當(dāng)然奇唤,知乎上的大神關(guān)于大數(shù)據(jù)的介紹非常生動,這里小編也是拿過來學(xué)習(xí)了下匹摇。
????什么是大數(shù)據(jù)咬扇?
????這問題看似簡單,實(shí)際不簡單廊勃,也許一千個(gè)人會有一千個(gè)答案懈贺。是的,每個(gè)人對大數(shù)據(jù)都有自己的理解坡垫,就像小編問朋友梭灿,“潮汕哪里的牛肉火鍋?zhàn)詈贸裕俊狈址昼姸寄苁斋@上百個(gè)答案葛虐。
????小編從吃貨的角度胎源,給大家舉栗說明一下,什么是大數(shù)據(jù)屿脐?
????1涕蚤、大數(shù)據(jù)是什么?怎么理解大數(shù)據(jù)的诵?
????如果把數(shù)據(jù)比作地球上的水万栅,個(gè)人的數(shù)據(jù)(電腦里的各種文檔、歌曲西疤、電影烦粒、程序等等),就好像一顆小水珠代赁,最多能在累的時(shí)候解解渴扰她;企業(yè)級的數(shù)據(jù)略有些不同,根據(jù)規(guī)模的大小,有些可以算作水坑、有些是池塘峻村,已經(jīng)可以養(yǎng)些小魚小蝦打打牙祭了;還有一些企業(yè)的數(shù)據(jù)(比如Facebook忧勿,2012年每天需要處理的數(shù)據(jù)量就達(dá)到了500TB)已經(jīng)算得上是一個(gè)大的湖泊了杉女,可以實(shí)現(xiàn)大型的捕撈、規(guī)脑化的養(yǎng)殖熏挎。但是,在湖泊之外晌砾,還有更廣闊的世界坎拐,也就是說還有更多的數(shù)據(jù)值得我們?nèi)グl(fā)現(xiàn)。
????比如贡羔,外國人常常埋怨中國菜不夠“精確”廉白,很多配料都用“少許”“適當(dāng)”“足量”粗略地進(jìn)行描述,實(shí)際操作起來很難學(xué)到精髓乖寒。有了大數(shù)據(jù)以后,主材院溺、配料的數(shù)量楣嘁、比例,油鹽醬醋的多少珍逸,都可以進(jìn)行精準(zhǔn)地記錄逐虚,甚至哪里產(chǎn)的豬肉,配上哪里的青椒谆膳、豆瓣做出來的回鍋肉最好吃叭爱,都可以形成數(shù)據(jù)被記錄下來。這些以前不被重視漱病、不被采集的數(shù)據(jù)买雾,就是我們大數(shù)據(jù)領(lǐng)域隱藏的“水滴”“池塘”“湖泊”。已有的大量數(shù)據(jù)杨帽,以及尚未被發(fā)現(xiàn)漓穿、記錄的數(shù)據(jù),共同構(gòu)成了大數(shù)據(jù)時(shí)代的發(fā)展基礎(chǔ)注盈。
????水滴晃危、池塘、湖泊發(fā)現(xiàn)得多了老客,就能夠匯聚成海洋僚饭。大數(shù)據(jù)海洋里面的水(數(shù)據(jù)),多到數(shù)不清楚胧砰,里面的物產(chǎn)鳍鸵、資源(大數(shù)據(jù)產(chǎn)生的價(jià)值)也豐富到無以復(fù)加。原來我們在湖泊里面養(yǎng)養(yǎng)“青草鰱鳙”四大家魚朴则,有了數(shù)據(jù)海洋权纤,想吃生蠔钓简、鱈魚、金槍魚等等都可以輕松搞定汹想。
????這么說外邓,你明白大數(shù)據(jù)了嗎?就是把超級多數(shù)據(jù)信息匯集到一起古掏,然后在里面“釣大魚”损话。
????2、都說大數(shù)據(jù)有4V的特征槽唾,是什么意思丧枪?
????大數(shù)據(jù)的4V,就是“容量大Volume”庞萍、“多樣性Variety”拧烦、“價(jià)值高Value”、“速度快Velocity”钝计,同樣以海洋和里面的美食進(jìn)行類比:
????A恋博、容量大:地球表面有70%左右都是海洋,想想里面都有多少水滴私恬,有多少好吃的债沮?大數(shù)據(jù)時(shí)代,每一個(gè)人本鸣、每一種食材疫衩、甚至每一秒風(fēng)味與口感的變化關(guān)系,都能夠形成一系列隨時(shí)更新的數(shù)據(jù)荣德,數(shù)據(jù)規(guī)拿泼海空前龐大,其中隱藏的價(jià)值也遠(yuǎn)遠(yuǎn)超出大部分人的預(yù)期命爬。
????B曹傀、多樣性:海洋里面的物質(zhì)非常多樣化,有資源饲宛、也有雜物皆愉;有海膽、生蠔艇抠、象鼻蚌等小而鮮嫩的海產(chǎn)幕庐,也有黃魚、鱈魚家淤、金槍魚等大型魚類……大數(shù)據(jù)的結(jié)構(gòu)也和海洋一樣復(fù)雜异剥,僅僅以文件類型為例,就有圖片絮重、文字冤寿、聲音歹苦、視頻等等,還有各種非結(jié)構(gòu)化數(shù)據(jù)督怜,所以在利用這些資源之前殴瘦,需要把他們“排排站”進(jìn)行分類、處理号杠,才能“吃果果”蚪腋。
????C、價(jià)值高:這個(gè)就不用說了姨蟋,鰻魚屉凯、龍蝦、三文魚……動輒每100克3~4萬元的黃唇魚眼溶,還有危急時(shí)刻能救人命的秋刀魚悠砚。(前幾年就出過一個(gè)日本青年因吃到炭烤秋刀魚而放棄輕生的新聞,小智會亂說偷仿?)在實(shí)際應(yīng)用中哩簿,大數(shù)據(jù)可以用于提升優(yōu)化企業(yè)的管理效率,發(fā)現(xiàn)新的商業(yè)機(jī)會酝静,也能夠?qū)κ挛锏陌l(fā)展做出準(zhǔn)確的分析、預(yù)測等等羡玛,各種商業(yè)價(jià)值就看你怎么用别智;
????D、速度快:先來吃肉稼稿、后來喝湯薄榛,這個(gè)道理想必大家都懂。數(shù)據(jù)海洋很大让歼,想要比別人搶先一步找到美味敞恋,速度一定要快,這就要求我們要能對整個(gè)數(shù)據(jù)海洋進(jìn)行快速的掃描谋右、篩選硬猫、處理。如果只有兩條小漁船改执,就算給你整個(gè)太平洋啸蜜,也不見得能奔上小康。
????3辈挂、對大數(shù)據(jù)的處理衬横,還是以在大海里面抓魚為例:
????通過技術(shù)手段,發(fā)現(xiàn)隱藏在海水中的豐富物產(chǎn)的過程终蒂,就是數(shù)據(jù)挖掘蜂林;
????(從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息)找到的東西里面遥诉,哪些是有用的,哪些是雜草噪叙、沙石先大概做一個(gè)分析矮锈,順手把錯(cuò)誤的、不合適的构眯、沒價(jià)值東西排除掉愕难,這是數(shù)據(jù)清洗;
????(發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯(cuò)誤)在進(jìn)行過初步篩選的“海域”里惫霸,進(jìn)一步掃描出哪些是礦產(chǎn)猫缭、哪些是漁產(chǎn),漁產(chǎn)里面有哪些魚類壹店,分別的種類劃分猜丹、經(jīng)濟(jì)價(jià)值如何、數(shù)量多少……這是數(shù)據(jù)分析硅卢;
????(對收集來的大量數(shù)據(jù)進(jìn)行分析射窒,提取有用信息和形成結(jié)論)把一眼看起來有些面目猙獰的海鮮(各種數(shù)字、表格)進(jìn)行加工将塑、處理脉顿,做成精美的大餐送上餐桌,色香味俱全地呈現(xiàn)在用戶面前(精美点寥、直觀的圖表)艾疟,就是我們說的數(shù)據(jù)可視化。
????4敢辩、IaaS蔽莱,PaaS,SaaS戚长?
????IaaS是基礎(chǔ)設(shè)施服務(wù)盗冷。IaaS是所有計(jì)算基礎(chǔ)設(shè)施的利用,包括處理CPU同廉、內(nèi)存仪糖、存儲、網(wǎng)絡(luò)和其它基本的計(jì)算資源恤溶,用戶能夠部署和運(yùn)行任意軟件乓诽,包括操作系統(tǒng)和應(yīng)用程序。就好像給你一個(gè)碼頭咒程,配備好了各種硬件設(shè)備鸠天。機(jī)會和能力給了你,還需要靠自己的平臺帐姻、工具稠集,到海洋里面獲取資源奶段。
????PaaS是平臺服務(wù)。提供給消費(fèi)者的服務(wù)是把客戶采用提供的開發(fā)語言和工具(例如Java剥纷,python,.Net等)開發(fā)的或收購的應(yīng)用程序部署到供應(yīng)商的云計(jì)算基礎(chǔ)設(shè)施上去痹籍。除了碼頭,又給了一艘船晦鞋,還給你配齊船長蹲缠、大副、水手悠垛,有了一個(gè)系統(tǒng)可以直接面對海洋的各種資源了线定。不過怎么抓魚,用什么工具抓魚确买,還是你自己的事情斤讥。
????SaaS是軟件服務(wù),提供給客戶的服務(wù)是運(yùn)營商運(yùn)行在云計(jì)算基礎(chǔ)設(shè)施上的應(yīng)用程序湾趾,用戶可以在各種設(shè)備上通過客戶端界面訪問芭商,如瀏覽器。這次就落實(shí)到具體的工具上面來搀缠,捕撈方案铛楣、抓魚的網(wǎng)、開船路線都配齊了艺普,只需要安排下去:去哪片海域抓什么魚就行蛉艾。
????5衷敌、Hadoop和Spark,又是啥東東拓瞪?
????這幾年說大數(shù)據(jù)缴罗,必定說Hadoop,后來又多了個(gè)Spark祭埂,是什么意思呢面氓?
????假如我的家族世代以打魚為生,以前都是聚集在一個(gè)島上蛆橡,駕駛一艘大船出海打魚舌界,整個(gè)家族能打到多少魚就和這艘船的航行速度(計(jì)算能力)、裝載數(shù)量(存儲能力)有關(guān)泰演。它的速度再快呻拌、撈得再多,由于只有一艘船睦焕,能夠搜尋的海域就相當(dāng)有限∶晡眨現(xiàn)在我們改變了策略靴拱,一艘船的能力不行,就找N多艘船一起猾普。整個(gè)家族的人分散到世界海洋各地袜炕,和其他家族一起共同分享各自的船只。必要的時(shí)候初家,我們可以聯(lián)合幾百艘船一起出動捕撈偎窘,由于覆蓋的海域足夠廣,能夠裝載的收獲足夠多溜在,對應(yīng)的捕撈能力也可以實(shí)現(xiàn)指數(shù)式的增長陌知。
????hadoop就是這樣一個(gè)分布式系統(tǒng)的基礎(chǔ)構(gòu)架,通過將文件進(jìn)行分布式(切塊炕泳、分散)管理纵诞,充分利用集體的威力進(jìn)行高速運(yùn)算和存儲。
????至于spark嘛培遵,就是船上以前有艘快艇浙芙,本來是用來逃生的,如今也被利用當(dāng)成抓魚的主要工具籽腕。(Spark是一種與hadoop類似的開源計(jì)算集群環(huán)境嗡呼,啟用了內(nèi)存分布數(shù)據(jù)集,直接從內(nèi)存讀數(shù)據(jù)皇耗,運(yùn)算速度最快能比從硬盤讀取數(shù)據(jù)提升10倍水平)南窗。
????6、大數(shù)據(jù)用來做什么郎楼?
????大數(shù)據(jù)有很多應(yīng)用場景万伤,比如精準(zhǔn)營銷,就是打魚的人通過多年海上經(jīng)驗(yàn)呜袁,知道哪片海域的海鮮多又能賣好價(jià)錢敌买;比如輿情分析,就像海嘯預(yù)警阶界,通過對海量信息的分析虹钮、比對,找出可能產(chǎn)生海嘯災(zāi)害的區(qū)域……當(dāng)然膘融,最大的用處還是“預(yù)測”芙粱,比如通過分析多年的洋流運(yùn)動,能夠分析出你今天在好望角錯(cuò)過的魚群下個(gè)月會出現(xiàn)在哪里氧映。什么春畔?你說魚對你沒有吸引力?那如果預(yù)測的是未來股票的漲跌呢?如果預(yù)測的是未來行業(yè)的風(fēng)口呢拐迁?
????7蹭劈、大數(shù)據(jù)企業(yè)都提供哪些服務(wù)?
????第一類线召,云平臺服務(wù)商铺韧,像亞馬遜、阿里云這些缓淹,就好比世界上一個(gè)個(gè)國家哈打,管理各自的海域,你可以去他的海域里面捕魚讯壶,可以將你的海域交給他們管理料仗,也可以直接買他們捕撈到的成品;
????第二類伏蚊,數(shù)據(jù)交易中介立轧,他們自身提供一些數(shù)據(jù),更主要的是搭建一個(gè)交易平臺躏吊,撮合數(shù)據(jù)提供者與數(shù)據(jù)使用者實(shí)現(xiàn)數(shù)據(jù)交換氛改,促成數(shù)據(jù)價(jià)值的實(shí)現(xiàn),這有點(diǎn)像買賣各種湖泊比伏、海洋的商人胜卤,買家拿到這些數(shù)據(jù)后,可以融合到自己的“海洋”里面去赁项,讓自己的海洋變得更大葛躏,物產(chǎn)更豐富;
????第三類悠菜,大數(shù)據(jù)解決方案提供商舰攒,就是在數(shù)據(jù)海洋的各個(gè)角落派遣捕魚船隊(duì),提供海洋開拓悔醋、資源掃描芒率、采礦捕撈、加工銷售的一系列服務(wù)篙顺,你想在數(shù)據(jù)大航海時(shí)代做的所有事情,他們都能幫你處理充择。
????8德玫、大數(shù)據(jù)時(shí)代的思維變革
????舍恩伯格在《大數(shù)據(jù)時(shí)代》這本書里總結(jié)的大數(shù)據(jù)的三個(gè)特征,業(yè)內(nèi)人早已耳熟能詳椎麦,但也爭議頗多宰僧。但實(shí)際上,這三個(gè)看似不起眼的特征的背后观挎,蘊(yùn)含著對大數(shù)據(jù)深刻的理解和洞察琴儿。
????(1)要相關(guān)不要因果
????因果關(guān)系段化,既某種現(xiàn)象(原因),引起了另一種現(xiàn)象(結(jié)果)造成,其原因和結(jié)果具有必然的聯(lián)系显熏。尋找因果關(guān)系是我們認(rèn)識、了解世界的重要手段晒屎。
????在大數(shù)據(jù)時(shí)代喘蟆,建立在相關(guān)分析法上的面的預(yù)測是大數(shù)據(jù)的核心。如果A和B經(jīng)常一起發(fā)生鼓鲁,那么當(dāng)B發(fā)生時(shí)蕴轨,可以預(yù)測A也發(fā)生了。至于為什么會這樣骇吭,在某些應(yīng)用上橙弱,已經(jīng)沒那么重要。
? ? (2)要全體不要抽樣
????在過去燥狰,由于收集棘脐、儲存和分析數(shù)據(jù)的技術(shù)落后,對大量數(shù)據(jù)的收集成本非常高昂碾局,我們只能收集少量的數(shù)據(jù)進(jìn)行分析荆残。所以就會導(dǎo)致有很多小概率事件覆蓋不到,容易出現(xiàn)黑天鵝事件净当。甚至有些時(shí)候我們都不是基于實(shí)證檢驗(yàn)内斯,而只是憑借經(jīng)驗(yàn),假設(shè)像啼,和價(jià)值觀俘闯,就對客觀規(guī)律做出了總結(jié)。這就導(dǎo)致過去很多時(shí)候忽冻,人類對于客觀世界的認(rèn)知真朗,是膚淺的、表面的僧诚、錯(cuò)誤的遮婶。
????在大數(shù)據(jù)時(shí)代,可以獲取足夠大的數(shù)據(jù)樣本乃至全體數(shù)據(jù)湖笨,在大數(shù)據(jù)時(shí)代依靠強(qiáng)大的數(shù)據(jù)處理能力旗扑,應(yīng)該去處理所有數(shù)據(jù)。
????總體而言慈省,這條特征反映出來的是:大數(shù)據(jù)的『量變』引發(fā)了人類進(jìn)行分析和思考的核心層面上的『質(zhì)變』臀防。
? ? (3)不是精確性,而是混雜性
????以最通俗的語言來說,就是在龐大的數(shù)據(jù)體量面前袱衷,每一個(gè)小的數(shù)據(jù)的精確性可以變得不是那么的重要捎废,因?yàn)?b>龐大的數(shù)量可以消除或極大地稀釋那些不準(zhǔn)確的部分。
????比如我們發(fā)100份調(diào)查問卷致燥,里面如果有5個(gè)人是胡亂回答的登疗,那可能就會極大地影響我們的調(diào)查結(jié)果;
????但如果我們發(fā)了10萬份調(diào)查問卷篡悟,那么即便是有50個(gè)人可以搗亂谜叹,那也不會對最終結(jié)果有太大的影響。
????同時(shí)搬葬,如我們在前面所提到的荷腊,看上去混雜無章的數(shù)據(jù),可以將原來看似無關(guān)的維度聯(lián)系起來急凰。我們對這些不同維度的信息進(jìn)行挖掘女仰、加工和整理,就能夠獲得有價(jià)值的統(tǒng)計(jì)規(guī)律抡锈。因此疾忍,在這個(gè)時(shí)候,數(shù)據(jù)的混雜性反而成為了大數(shù)據(jù)的優(yōu)勢床三,通過對不同維度的數(shù)據(jù)的分析一罩,使這些維度開始出現(xiàn)相互交叉,數(shù)據(jù)之間的關(guān)聯(lián)性獲得了極大地增強(qiáng)撇簿,我們也因此能夠獲得更多的新的規(guī)律聂渊。
????上述呢,就是關(guān)于大數(shù)據(jù)的一些介紹四瘫。當(dāng)然汉嗽,看完知乎大神的分享筆者也受益匪淺。接下來也得抽點(diǎn)時(shí)間找蜜,看看《大數(shù)據(jù)時(shí)代》這本書了饼暑!
????大部分轉(zhuǎn)載自:什么是大數(shù)據(jù)? - 小智的回答 - 知乎