十問(wèn)大數(shù)據(jù)到底為何物?

在互聯(lián)網(wǎng)時(shí)代扎谎,大數(shù)據(jù)炙手可熱藕施,許多人言必稱(chēng)大數(shù)據(jù)摩幔,但能夠真正說(shuō)清大數(shù)據(jù)為何物的人并不多劳殖,如何借助大數(shù)據(jù)挖掘出巨大的商業(yè)價(jià)值铐尚。究竟如何定義大數(shù)據(jù)?大數(shù)據(jù)有哪些特征?本文旨在理清大數(shù)據(jù)概念,闡明大數(shù)據(jù)應(yīng)用方式及探究未來(lái)大數(shù)據(jù)發(fā)展之道哆姻。


Q1:大數(shù)據(jù)是商業(yè)炒作嗎?

業(yè)界給大數(shù)據(jù)的定義是4 個(gè)“V”:體量大(Volume)宣增、種類(lèi)多(Variety)、速度快(Velocity)和真實(shí)性高(Veracity)矛缨。但這個(gè)定義其實(shí)并未抓住大數(shù)據(jù)本質(zhì)爹脾。如果僅僅看這幾個(gè)維度帖旨,大數(shù)據(jù)就是一種炒作,因?yàn)樗鼈冎皇潜砻娆F(xiàn)象灵妨。

大數(shù)據(jù)的本質(zhì)應(yīng)該是如何為企業(yè)帶來(lái)一種更新更好的商業(yè)運(yùn)作模式解阅,而大數(shù)據(jù)應(yīng)用的成功,也是依靠決策者提出好的商業(yè)問(wèn)題及與其相關(guān)的商業(yè)模式泌霍。這些商業(yè)問(wèn)題可以非常簡(jiǎn)單货抄,但問(wèn)題背后必須有一系列相關(guān)的商業(yè)模式。

比如朱转,如何運(yùn)用智能手機(jī)應(yīng)用商城的數(shù)據(jù)蟹地, 來(lái)提高對(duì)用戶APP 推薦的精度?

隨后,利用應(yīng)用商城的大數(shù)據(jù)藤为,可以產(chǎn)生上百萬(wàn)維的數(shù)據(jù)表怪与,進(jìn)而建立可靠準(zhǔn)確的推薦模型,使得用戶體驗(yàn)水平大幅提升缅疟。

大數(shù)據(jù)應(yīng)用成功的關(guān)鍵也正取決于是否有一個(gè)明確的商業(yè)(或科學(xué))目的分别,商業(yè)模式的定義是其前提條件。

Q2:數(shù)據(jù)越多越有用?

首先存淫,如果收集大數(shù)據(jù)的目的是建立一個(gè)對(duì)位置數(shù)據(jù)的預(yù)測(cè)模型茎杂,那么,得到這一模型的訓(xùn)練數(shù)據(jù)一定要包含所需的信息纫雁。但問(wèn)題恰恰是,事前并不知道哪些特征是重要的倾哺,因此轧邪,需要把盡量多的數(shù)據(jù)整合起來(lái),讓機(jī)器去尋找羞海。

然而忌愚,這個(gè)問(wèn)題為什么不能去咨詢(xún)?cè)擃I(lǐng)域內(nèi)的專(zhuān)家們呢?事實(shí)證明,專(zhuān)家們雖然會(huì)自己解決問(wèn)題却邓,但大都說(shuō)不清他們是如何解決這些問(wèn)題的硕糊。這也就是為什么在大數(shù)據(jù)應(yīng)用中,專(zhuān)家的作用更多體現(xiàn)在幫助連接腊徙、聚合盡量多的數(shù)據(jù)上简十。

除此之外段审,要建立一個(gè)好的預(yù)測(cè)模型删窒,用來(lái)訓(xùn)練模型的數(shù)據(jù)總量也要足夠多。如果歷史數(shù)據(jù)少于一定規(guī)模副瀑,就會(huì)出現(xiàn)所謂“過(guò)擬合”(為了得到一致假設(shè)而使假設(shè)變得過(guò)度復(fù)雜)現(xiàn)象民傻。例如胰默,如果一個(gè)服裝品牌按照某一個(gè)模特的身材來(lái)設(shè)計(jì)场斑,衣服很可能做得偏瘦,以至于絕大多數(shù)其他消費(fèi)者無(wú)法使用牵署。這種“過(guò)擬合”現(xiàn)象在建立大數(shù)據(jù)下的預(yù)測(cè)模型時(shí)也會(huì)發(fā)生漏隐。

那么,數(shù)據(jù)的總量越大奴迅,是不是預(yù)測(cè)模型需要學(xué)習(xí)的時(shí)間就一定越長(zhǎng)呢?答案是否定的青责。研究成果表明,在一定條件下半沽,當(dāng)數(shù)據(jù)變得越大爽柒,實(shí)際所需要的訓(xùn)練時(shí)間反而越短。為什么會(huì)這樣呢?可以想象:如果一個(gè)學(xué)生在學(xué)習(xí)某種概念時(shí)者填,只有少數(shù)習(xí)題浩村,那么這個(gè)學(xué)生想透徹學(xué)會(huì)這個(gè)概念,就需要把每一個(gè)習(xí)題翻來(lái)覆去地看占哟,加以擴(kuò)展心墅,這樣學(xué)習(xí)的過(guò)程會(huì)比較慢。相反榨乎,如果他有許多不同類(lèi)的習(xí)題怎燥,只需要把每一個(gè)習(xí)題過(guò)一遍,即可應(yīng)付未來(lái)的大部分情況蜜暑。因此铐姚,習(xí)題多的學(xué)生,學(xué)到同樣水平的時(shí)間反而會(huì)短肛捍。

Q3:人工智能將超過(guò)人類(lèi)大腦?

經(jīng)過(guò)幾十年的探索隐绵,可以相信:機(jī)器的智能只能從針對(duì)大數(shù)據(jù)的學(xué)習(xí)中得來(lái),而大數(shù)據(jù)只能從人與人的交互拙毫、人與機(jī)器的交互中得來(lái)依许。如果想要這些交互產(chǎn)生足夠多的數(shù)據(jù),就一定要讓這些交互為人類(lèi)提供有用的服務(wù)缀蹄。

如今峭跳,什么數(shù)據(jù)最為充分?充分的數(shù)據(jù)首先是最容易被記錄的那一部分,比如語(yǔ)音缺前、圖像蛀醉、文字等。能不能直接獲取人類(lèi)大腦活動(dòng)信息衅码,并以此來(lái)充實(shí)我們的智能呢?當(dāng)今的這種技術(shù)(如磁共振腦圖成像技術(shù))

還不夠精確滞欠,因此,通過(guò)學(xué)習(xí)得到的系統(tǒng)雖然在單方面可以超過(guò)人類(lèi)大腦(如IBMWatson)肆良,但就通用性而言筛璧,現(xiàn)階段的人工智能比起人類(lèi)大腦還差得很遠(yuǎn)!

有沒(méi)有可能在不久之后的某天逸绎,具有人工智能的機(jī)器人成為人類(lèi)的敵人呢?這是有可能的。但前提是:這些機(jī)器人的領(lǐng)袖一定是人類(lèi)夭谤。

Q4:用戶隱私問(wèn)題如何解決?

隱私問(wèn)題的出現(xiàn)其實(shí)比大數(shù)據(jù)要早棺牧,但隱私真正成為家喻戶曉的議題,卻是在大數(shù)據(jù)成為熱點(diǎn)之后朗儒。從斯諾登揭秘到蘋(píng)果數(shù)據(jù)上傳颊乘,隨著越來(lái)越多媒體的爆料,大家對(duì)隱私的關(guān)心程度也與日俱增醉锄。隱私問(wèn)題的最大矛盾在于乏悄,一方面,數(shù)據(jù)被嚴(yán)嚴(yán)實(shí)實(shí)地包起來(lái)恳不,另一方面檩小,它又要被運(yùn)用來(lái)發(fā)現(xiàn)有用的東西,不得不將之開(kāi)放和上傳烟勋。

目前看來(lái)规求,數(shù)據(jù)隱私問(wèn)題有三個(gè)考慮: 1. 技術(shù);2. 用戶利益;3. 社會(huì)接受程度。

從技術(shù)上來(lái)說(shuō)卵惦,以前有關(guān)數(shù)據(jù)的解決方式大都是把數(shù)據(jù)從終端遷移到計(jì)算端(如計(jì)算中心)阻肿,得出結(jié)果后再把結(jié)果送到終端。這種方式無(wú)疑會(huì)引發(fā)隱私問(wèn)題沮尿,因?yàn)橐坏?shù)據(jù)離開(kāi)用戶的個(gè)人終端丛塌,就無(wú)從保證誰(shuí)將有權(quán)利接觸數(shù)據(jù),數(shù)據(jù)的隱私也就無(wú)從保護(hù)了畜疾。

要保護(hù)隱私姨伤,一種新的模式是“計(jì)算隨著數(shù)據(jù)走”,也就是利用終端自身的強(qiáng)大計(jì)算功能庸疾,在終端算好一個(gè)結(jié)果(如一個(gè)預(yù)測(cè)模型,即本地模型)当编,再把這個(gè)模型與某一個(gè)通用模型加以整合届慈。這種模式無(wú)疑會(huì)引入更多計(jì)算量與復(fù)雜性,目前還屬于前沿研究領(lǐng)域忿偷。這種方法就像是有人要買(mǎi)股票金顿,但又不想別人知道他自己的需求,只讀取網(wǎng)上有關(guān)股票的信息鲤桥,與自己知道的需求結(jié)合起來(lái)揍拆,做出買(mǎi)賣(mài)決策。只要每個(gè)人足夠聰明茶凳,又有足夠的計(jì)算能力嫂拴,這樣的系統(tǒng)就會(huì)最大程度地保護(hù)每個(gè)人的隱私播揪。


另一種做法是,仍把數(shù)據(jù)傳輸?shù)接?jì)算中心筒狠,但在傳輸之前猪狈,將數(shù)據(jù)加以改變,使其中的關(guān)鍵隱私信息在傳輸和計(jì)算中被隱藏起來(lái)辩恼,讓人無(wú)法反推原始的敏感數(shù)據(jù)(如用戶性別雇庙、住址等),同時(shí)又保證計(jì)算結(jié)果的真實(shí)性和可用性灶伊。實(shí)際上疆前,一個(gè)更難的問(wèn)題是:無(wú)論如何隱藏和加密原始數(shù)據(jù),用戶心里總有不放心的一點(diǎn)陰影聘萨。由于這個(gè)陰影的存在竹椒,用戶永遠(yuǎn)不會(huì)相信一個(gè)單純靠技術(shù)的隱私保護(hù)計(jì)劃⌒偻冢可以預(yù)見(jiàn)碾牌,在未來(lái),隱私問(wèn)題的解決程度將成為用戶選取產(chǎn)品的重要依據(jù)儡循。

可是舶吗,大數(shù)據(jù)已經(jīng)來(lái)到人們身邊。今天社會(huì)上的每個(gè)人择膝,實(shí)際上都是大數(shù)據(jù)的使用者誓琼。同時(shí),又在不斷暴露自己的隱私肴捉。比如腹侣,用戶使用免費(fèi)的電子郵件賬戶,即便知道這些服務(wù)商在挖掘我們的郵件信息;用戶使用搜索引擎詢(xún)問(wèn)各種問(wèn)題齿穗,盡管這令我們的問(wèn)題被記錄在案傲隶。既然如此,為何用戶在使用大數(shù)據(jù)服務(wù)的時(shí)候窃页,依舊樂(lè)此不疲呢?答案在于用戶利益與隱私暴露的費(fèi)用比:如果用戶得到的利益大于個(gè)人數(shù)據(jù)泄露的價(jià)值跺株,用戶還是會(huì)同意接受并分享這些數(shù)據(jù)的。因此脖卖,隱私問(wèn)題的關(guān)鍵是乒省,如何讓系統(tǒng)和用戶在矛盾中尋找到一個(gè)平衡點(diǎn)。

最后畦木,隨著技術(shù)的發(fā)展袖扛,社會(huì)對(duì)于數(shù)據(jù)分享的接受程度也會(huì)改變。上一代人所不能接受的事物十籍,到下一代可能就不是大問(wèn)題了蛆封。Facebook 就是個(gè)例子:實(shí)名制允許人們?cè)L問(wèn)他人的主頁(yè)唇礁,并看到許多信息,這一點(diǎn)在最開(kāi)始引起不小的質(zhì)疑娶吞,但最后垒迂,廣大青少年熱烈地?fù)肀н@一新技術(shù),并紛紛加入其中妒蛇。

在這里還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流扣扣群:378144993机断,群里都是學(xué)大數(shù)據(jù)開(kāi)發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù)?绣夺,小編歡迎你加入,大家都是軟件開(kāi)發(fā)黨吏奸,不定期分享干貨(只有大數(shù)據(jù)軟件開(kāi)發(fā)相關(guān)的),包括我自己整理的一份最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開(kāi)發(fā)教程陶耍,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴加入奋蔚。

Q5:運(yùn)營(yíng)商管道vs 互聯(lián)網(wǎng)用戶大數(shù)據(jù)?

互聯(lián)網(wǎng)與電信運(yùn)營(yíng)商的關(guān)系,可以用一個(gè)例子來(lái)理解:馬路上形形色色的車(chē)輛可以視為互聯(lián)網(wǎng)烈钞,車(chē)上所裝的貨物泊碑、乘客及運(yùn)輸系統(tǒng)可以視為互聯(lián)網(wǎng)的數(shù)據(jù)和各種應(yīng)用,而車(chē)輛所走的高速公路類(lèi)似于運(yùn)營(yíng)商提供的管道毯欣。對(duì)于互聯(lián)網(wǎng)而言馒过,它更關(guān)心乘客和貨物,關(guān)心如何把他們安全送到目的地酗钞。但從運(yùn)營(yíng)商角度而言腹忽,它更關(guān)心的是道路是否通暢。從這一點(diǎn)來(lái)說(shuō)砚作,互聯(lián)網(wǎng)的數(shù)據(jù)有關(guān)乘客和貨物窘奏,運(yùn)營(yíng)商的數(shù)據(jù)是車(chē)流量、道路擁塞的程度葫录。所以着裹,互聯(lián)網(wǎng)的數(shù)據(jù)是終端用戶數(shù)據(jù),運(yùn)營(yíng)商的數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)米同。

什么是關(guān)于數(shù)據(jù)的數(shù)據(jù)呢?以照片為例骇扇,像素點(diǎn)就是數(shù)據(jù),而照片大小窍霞、類(lèi)型、照片文件的產(chǎn)生時(shí)間與地點(diǎn)拯坟,就是數(shù)據(jù)的數(shù)據(jù)但金。

數(shù)據(jù)的數(shù)據(jù)在電信行業(yè)意義重大。但其前提是:資源無(wú)論到何時(shí)都是有限的郁季。管道再寬冷溃,也是有限的钱磅。那么,從運(yùn)營(yíng)商的角度來(lái)說(shuō)似枕,他們希望知道什么呢?還是以車(chē)和路來(lái)比喻:

你想知道如何為一些重要的掣堑客開(kāi)辟一條快速通道嗎?那就首先要知道哪些是重要的常客凿歼。只有知道了惩食伲客的群體,炒疸荆客的特征味赃,才能有效抓取到他們。你想知道哪些重要車(chē)輛所屬的公司在受競(jìng)爭(zhēng)對(duì)手的高速公路公司吸引虐拓,正考慮換路嗎?那就要分析這些車(chē)輛公司的痛點(diǎn)何在心俗。你想知道哪些路段需要特別維護(hù),并派一些常駐維護(hù)車(chē)輛駐守嗎?那就需要分析哪些是容易受損的路段蓉驹。

這些對(duì)數(shù)據(jù)分析的需求隨著運(yùn)營(yíng)技術(shù)的前進(jìn)而提升城榛。在5G的場(chǎng)景下,運(yùn)營(yíng)商需要給大眾提供更密集态兴、更快狠持、更個(gè)性化的電信服務(wù),由此也就知道用戶的使用規(guī)律诗茎、痛點(diǎn)工坊、服務(wù)軟肋在哪里。一個(gè)如影隨形的高端服務(wù)并非由無(wú)數(shù)服務(wù)員在所有用戶可能出現(xiàn)的地方等待敢订,而是由一個(gè)聰明的服務(wù)員在用戶需要的時(shí)候及時(shí)出現(xiàn)王污。未來(lái)的網(wǎng)絡(luò)技術(shù),如軟件定義網(wǎng)絡(luò)(SDN)楚午,就更需要大數(shù)據(jù)的支持:SDN 的大腦可以根據(jù)網(wǎng)絡(luò)大數(shù)據(jù)的深度挖掘所產(chǎn)生的修改昭齐,而變得越來(lái)越聰明。


Q6:大數(shù)據(jù)和云計(jì)算矾柜、物聯(lián)網(wǎng)是什么關(guān)系?

如果把整個(gè)IT 流程看做一棵樹(shù)的話阱驾,物聯(lián)網(wǎng)就是這棵樹(shù)的葉子和枝干。如果傳感器網(wǎng)絡(luò)所感知的信息是有關(guān)“人”的信息怪蔑,比如用戶在網(wǎng)上購(gòu)買(mǎi)商品的信息里覆,或與人的移動(dòng)行為和動(dòng)機(jī)相關(guān)的信息,那么它就會(huì)有極大的商業(yè)價(jià)值缆瓣,對(duì)這種數(shù)據(jù)的需求也會(huì)劇增喧枷。人的心理因素是世上最復(fù)雜的,對(duì)應(yīng)著某種動(dòng)機(jī)和意識(shí)的行為、動(dòng)作也千差萬(wàn)別隧甚。人與人的關(guān)系組成了無(wú)窮多的維度车荔,而大數(shù)據(jù)正是這些維度疊加而成的。這些數(shù)據(jù)不僅包括人本身的語(yǔ)言戚扳、文字忧便、動(dòng)作、視覺(jué)數(shù)據(jù)帽借,更是人與人之間關(guān)系的數(shù)據(jù)珠增。凡是與人相關(guān)的活動(dòng)數(shù)據(jù),都是最值得收集的數(shù)據(jù)宜雀,與之相關(guān)的需求則永遠(yuǎn)存在切平。

所以說(shuō),關(guān)于人的數(shù)據(jù)才是大數(shù)據(jù)辐董。物聯(lián)網(wǎng)只有考慮到人這種廣義的“物”悴品,才最有價(jià)值。否則简烘,物聯(lián)網(wǎng)所傳輸?shù)臄?shù)據(jù)無(wú)論從復(fù)雜度還是商業(yè)目的而言苔严,都極為有限。

大數(shù)據(jù)和云計(jì)算的關(guān)系則在于孤澎,大數(shù)據(jù)的成功應(yīng)用除了“大”届氢,還有三個(gè)必要條件:實(shí)時(shí)在線、對(duì)事件的全面描述以及產(chǎn)生差異化的效果覆旭。云計(jì)算使得這三個(gè)必要條件得以滿足退子。


首先,云計(jì)算使人們可以隨時(shí)隨地使用存儲(chǔ)和計(jì)算型将,使大量數(shù)據(jù)得以及時(shí)被采集和分析寂祥。手機(jī)上APP應(yīng)用云的服務(wù)就是一個(gè)云計(jì)算的例子。由于存儲(chǔ)和計(jì)算成本的降低七兜,云計(jì)算起到了實(shí)時(shí)在線的作用丸凭, 從而使得更多的人愿意使用云服務(wù),大數(shù)據(jù)的雪球由此可以滾動(dòng)起來(lái)腕铸。

云計(jì)算的另一個(gè)好處是可以實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)整合惜犀。當(dāng)今世界并不是為大數(shù)據(jù)應(yīng)用準(zhǔn)備的,因?yàn)榇罅繑?shù)據(jù)集散落在不同地方狠裹,以不同方式存放虽界,其擁有者也是不同的人。在云計(jì)算條件下涛菠,很多大規(guī)模數(shù)據(jù)整合的問(wèn)題都會(huì)得到解決莉御。當(dāng)大家數(shù)據(jù)放在一起時(shí)刹缝,數(shù)據(jù)整合的門(mén)檻會(huì)大幅降低,因此颈将,大數(shù)據(jù)也會(huì)像核物理的聚變一樣,產(chǎn)生成倍的效果言疗。

Q7:有了大數(shù)據(jù)晴圾,我們還需要專(zhuān)家嗎?

在大數(shù)據(jù)時(shí)代,專(zhuān)家的一部分作用確實(shí)可以被大數(shù)據(jù)應(yīng)用所取代噪奄。例如死姚,推薦金融產(chǎn)品時(shí),專(zhuān)家需要將特定金融產(chǎn)品推薦給特定客戶勤篮。這些客戶有以下特點(diǎn):接受這一推薦的可能性很高都毒,同時(shí),對(duì)其他客戶的影響力也很強(qiáng)碰缔,在接受這一產(chǎn)品的同時(shí)账劲,他們很有可能會(huì)把產(chǎn)品消息向親朋好友傳播。這一重要的市場(chǎng)工作過(guò)去是由專(zhuān)業(yè)的市場(chǎng)部門(mén)經(jīng)理來(lái)完成的金抡。然而在大數(shù)據(jù)應(yīng)用中瀑焦,通過(guò)對(duì)大數(shù)據(jù)的整合分析得出的大規(guī)模推薦模型的推薦效果,是市場(chǎng)部專(zhuān)家的二十倍以上梗肝。

這個(gè)例子說(shuō)明:首先榛瓮,在傳統(tǒng)商業(yè)領(lǐng)域,大數(shù)據(jù)的功效確實(shí)能夠取代并超越人的作用巫击。在過(guò)去的實(shí)踐中禀晓,市場(chǎng)專(zhuān)家最多能夠判別十幾維的數(shù)據(jù),而數(shù)據(jù)挖掘模型卻可以處理幾萬(wàn)維甚至幾千萬(wàn)維的數(shù)據(jù);其次坝锰,取得這么好的效果需要做許多前期工作粹懒,如搭建數(shù)據(jù)平臺(tái)、整合不同數(shù)據(jù)什黑、建立分析預(yù)測(cè)模型崎淳,以及利用模型對(duì)未來(lái)數(shù)據(jù)進(jìn)行分析決策。

這些研究人員具有三個(gè)突出特點(diǎn):

一是非常強(qiáng)的駕馭數(shù)據(jù)管理系統(tǒng)和快速編程的能力愕把,

二是和業(yè)務(wù)專(zhuān)家溝通并理解業(yè)務(wù)目標(biāo)及約束能力拣凹、分析數(shù)據(jù)的能力,

三是與模型連接并預(yù)測(cè)到業(yè)務(wù)決策的能力恨豁。具有這些能力的人嚣镜,我們稱(chēng)其為數(shù)據(jù)科學(xué)家。

所以橘蜜,有了大數(shù)據(jù)之后菊匿,專(zhuān)家依然是需要的付呕,只不過(guò)專(zhuān)家在決策過(guò)程中的作用與焦點(diǎn)改變了:專(zhuān)家已經(jīng)不能獨(dú)享成功,而一定要和大數(shù)據(jù)系統(tǒng)共同完成一項(xiàng)復(fù)雜的任務(wù)跌捆。大數(shù)據(jù)做了以往專(zhuān)家在數(shù)據(jù)分析領(lǐng)域的工作徽职,但專(zhuān)家對(duì)于專(zhuān)業(yè)領(lǐng)域的價(jià)值和經(jīng)驗(yàn)依舊無(wú)法取代。建立數(shù)據(jù)分析模型需要理解業(yè)務(wù)及業(yè)務(wù)目標(biāo)佩厚,這仍需要專(zhuān)家的研究和貢獻(xiàn)姆钉,畢竟外行還是不能領(lǐng)導(dǎo)內(nèi)行。

在這里還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流扣扣群:378144993抄瓦,群里都是學(xué)大數(shù)據(jù)開(kāi)發(fā)的潮瓶,如果你正在學(xué)習(xí)大數(shù)據(jù)?,小編歡迎你加入,大家都是軟件開(kāi)發(fā)黨钙姊,不定期分享干貨(只有大數(shù)據(jù)軟件開(kāi)發(fā)相關(guān)的)毯辅,包括我自己整理的一份最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開(kāi)發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴加入煞额。

Q8:大數(shù)據(jù)最適合做什么?

大數(shù)據(jù)的發(fā)展和其他任何技術(shù)的發(fā)展路徑一樣思恐,都需要經(jīng)過(guò)“初始化- 極端膨脹- 較大失望- 理性思考-成功應(yīng)用”這個(gè)逐漸成熟的過(guò)程。在歷史上膊毁,聽(tīng)起來(lái)先進(jìn)的技術(shù)在這個(gè)過(guò)程中卻消失的例子比比皆是壁袄。那些成功的技術(shù)一定要經(jīng)得起理性的思考和時(shí)間的考驗(yàn),以找到它們?cè)趯?shí)踐中最合適的落腳點(diǎn)媚媒。

目前嗜逻,大數(shù)據(jù)有一個(gè)作用可能還沒(méi)有被注意到——大數(shù)據(jù)可以連接大量不同的數(shù)據(jù)孤島,使得大數(shù)據(jù)所覆蓋的范圍更大更廣缭召,也使得大數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)隨著這個(gè)雪球越滾越大栈顷。這樣,使用者可以不斷得到新的數(shù)據(jù)嵌巷, 而用戶也能不斷得到新的服務(wù)萄凤。

從現(xiàn)在大數(shù)據(jù)成功應(yīng)用的領(lǐng)域來(lái)推斷,應(yīng)用最多的應(yīng)該是集中在對(duì)過(guò)去事件的存儲(chǔ)搪哪、抽取靡努,以及對(duì)不同數(shù)據(jù)的聚合聯(lián)通、總結(jié)統(tǒng)計(jì)上晓折。大數(shù)據(jù)聚合的重要作用之一是關(guān)聯(lián)不同數(shù)據(jù)之間發(fā)生的個(gè)別事件惑朦。通過(guò)連通,實(shí)時(shí)發(fā)現(xiàn)事件真相漓概。有了這樣的數(shù)據(jù)就可以做以下分析:某個(gè)事件在發(fā)生的同時(shí)還會(huì)發(fā)生什么其他事件?如何通過(guò)過(guò)去數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)可能發(fā)生的事件?如何能夠自動(dòng)建議漾月,用某種行為來(lái)促使某些事件發(fā)生,或保證某些事件不發(fā)生?等等胃珍。


Q9:大數(shù)據(jù)不能做什么?

大數(shù)據(jù)明顯不是萬(wàn)能的梁肿,那么蜓陌,大數(shù)據(jù)不能做什么呢?

不能替代有效的商業(yè)模式。大數(shù)據(jù)的應(yīng)用不能沒(méi)有商業(yè)模式吩蔑,比如如何在大數(shù)據(jù)業(yè)務(wù)中為用戶帶來(lái)價(jià)值钮热,使得數(shù)據(jù)成長(zhǎng)和商業(yè)增長(zhǎng)同步等等。而商業(yè)模式顯然不是能從大數(shù)據(jù)本身挖掘的烛芬,而是由具備豐富經(jīng)驗(yàn)的專(zhuān)家來(lái)確定的霉旗。

不能沒(méi)有領(lǐng)導(dǎo)的決斷力。在今天的大部分公司中蛀骇,數(shù)據(jù)的存在形式無(wú)異于一個(gè)個(gè)孤島。把這些數(shù)據(jù)整合起來(lái)不僅是個(gè)技術(shù)活读拆,還有很強(qiáng)的管理因素擅憔。往往在同一個(gè)公司的不同部門(mén)會(huì)有很多競(jìng)爭(zhēng),數(shù)據(jù)就是一個(gè)部門(mén)的資產(chǎn)檐晕。雖然把幾種不同數(shù)據(jù)聚合在一起會(huì)很有價(jià)值暑诸,但能真正做到這一點(diǎn)的公司卻會(huì)發(fā)現(xiàn),要成功做到數(shù)據(jù)整合需要更高級(jí)領(lǐng)導(dǎo)的決斷力辟灰。這也是為什么一些很有前瞻性的公司會(huì)專(zhuān)門(mén)有一個(gè)部門(mén)來(lái)負(fù)責(zé)全公司的數(shù)據(jù)業(yè)務(wù)个榕。

不能無(wú)目的地挖掘。在大數(shù)據(jù)的初學(xué)者當(dāng)中芥喇,有一個(gè)普遍的錯(cuò)覺(jué):當(dāng)我們有了足夠的數(shù)據(jù)西采,就可以在其中漫無(wú)目的地找到知識(shí)。這樣的錯(cuò)覺(jué)實(shí)際上是不科學(xué)的继控。數(shù)據(jù)挖掘需要約束與目標(biāo)械馆,否則就是大海撈針,必然是徒勞的武通。比如霹崎,開(kāi)普勒的成功是建立在以太陽(yáng)為焦點(diǎn)的橢圓形假設(shè)上的。

不能沒(méi)有專(zhuān)家冶忱。上文提到尾菇,大數(shù)據(jù)在不同應(yīng)用領(lǐng)域會(huì)需要不同的專(zhuān)業(yè)知識(shí)來(lái)指導(dǎo)。而不同的領(lǐng)域囚枪, 需要專(zhuān)家們的參與程度也會(huì)不同派诬。G o o g l e實(shí)驗(yàn)室有一個(gè)在大量圖片和視頻數(shù)據(jù)中,讓計(jì)算機(jī)自動(dòng)識(shí)別貓臉的例子链沼。但這樣的深度學(xué)習(xí)很難推廣到其他大數(shù)據(jù)的領(lǐng)域千埃。因?yàn)椋晒Φ南葲Q條件之一是該領(lǐng)域本身具有非常直觀的層次結(jié)構(gòu)忆植,就像圖片的構(gòu)成一樣放可。如果某個(gè)領(lǐng)域的數(shù)據(jù)不具備這樣的層次結(jié)構(gòu)谒臼, 就很難用同樣的方法自動(dòng)發(fā)現(xiàn)規(guī)律。而這樣一個(gè)結(jié)構(gòu)是需要數(shù)據(jù)科學(xué)家來(lái)定義的耀里。


不能一次建模蜈缤, 終生受益。一個(gè)好的模型需要不斷更新冯挎, 需要終生學(xué)習(xí)(Lifelong Machine Learning)來(lái)不斷改進(jìn)底哥。例如,在奧巴馬的競(jìng)選中房官,科學(xué)家建立了一個(gè)用戶投票模型趾徽,來(lái)預(yù)測(cè)選民可能的立場(chǎng),而這個(gè)模型是每周利用更新的數(shù)據(jù)來(lái)更新一次的翰守。

不擅長(zhǎng)做全局性的優(yōu)化分析孵奶。大數(shù)據(jù)下的主要數(shù)據(jù)處理方法是“分而治之”,即把大的數(shù)據(jù)分為小塊蜡峰,一塊一塊地處理了袁,然后再把結(jié)果合并。這個(gè)過(guò)程也許要經(jīng)過(guò)很多次湿颅,但總的思想是這樣分化载绿、合并之后的結(jié)果,與全局計(jì)算的結(jié)果是一樣的油航。但是崭庸,還有很多問(wèn)題是不能這樣來(lái)解決的。比如谊囚,在下圍棋的時(shí)候冀自,每一個(gè)棋子的目的可能和整個(gè)戰(zhàn)略都相關(guān),所以分而治之的想法是行不通的秒啦。

不能沒(méi)有對(duì)其語(yǔ)義的標(biāo)注熬粗。目前只能通過(guò)對(duì)數(shù)據(jù)的標(biāo)識(shí)賦予其意義。比如余境,推薦系統(tǒng)在沒(méi)有用戶反饋的情況下效果很差驻呐,而通過(guò)現(xiàn)有的心理學(xué)模型等加強(qiáng)其效果都無(wú)效。一般來(lái)說(shuō)芳来,如果試圖從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)含末,則需要大量的數(shù)據(jù)標(biāo)注。往往在一個(gè)和用戶有直接互動(dòng)的應(yīng)用中是可以得到這樣的標(biāo)識(shí)數(shù)據(jù)的即舌。要得到大量的標(biāo)識(shí)數(shù)據(jù)佣盒,不僅需要一個(gè)平臺(tái)來(lái)承載有用的應(yīng)用,而且需要一個(gè)對(duì)人顽聂、對(duì)大數(shù)據(jù)系統(tǒng)的雙贏經(jīng)濟(jì)學(xué)模型肥惭。

不能僅用有偏的數(shù)據(jù)盯仪。數(shù)據(jù)一定要全面地反映未來(lái), 對(duì)各個(gè)方面都有所涉及。如果數(shù)據(jù)是有偏的蜜葱,則很難對(duì)未來(lái)進(jìn)行有效地判斷全景。

不能保證包含有效的信息。當(dāng)數(shù)據(jù)中的關(guān)鍵特征缺失時(shí)牵囤,大數(shù)據(jù)就無(wú)法矯正數(shù)據(jù)與現(xiàn)實(shí)之間的偏差爸黄,尤其是對(duì)于那種與人的心理和行為相關(guān)的數(shù)據(jù),非常容易產(chǎn)生偏差揭鳞。問(wèn)題的關(guān)鍵是:研究之前炕贵,專(zhuān)家并不知道哪些特征是關(guān)鍵特征。比如股價(jià)受到“黑天鵝”事件影響野崇,使得無(wú)法用大數(shù)據(jù)預(yù)測(cè)關(guān)鍵事件發(fā)生的概率称开。這就像一個(gè)輸入管道:垃圾輸入導(dǎo)致垃圾輸出。這也是為什么某些電影的實(shí)際票房和從網(wǎng)上評(píng)價(jià)數(shù)據(jù)得來(lái)的結(jié)果是背道而馳的舞骆。

不能保證減小噪音。這是因?yàn)樵诖髷?shù)據(jù)里面径荔,噪音數(shù)據(jù)的出現(xiàn)往往會(huì)以有意義的模式的形式出現(xiàn)督禽,從而騙過(guò)知識(shí)挖掘系統(tǒng)。這樣总处,大數(shù)據(jù)可能帶來(lái)更大的噪音狈惫。

Q10:后大數(shù)據(jù)時(shí)代的技術(shù)趨勢(shì)是什么?

大數(shù)據(jù)所帶來(lái)的變革,只不過(guò)是計(jì)算機(jī)技術(shù)為整個(gè)人類(lèi)帶來(lái)變革當(dāng)中的一步鹦马。計(jì)算機(jī)從上世紀(jì)五十年代起胧谈,就在人類(lèi)歷史上開(kāi)始了潛移默化的革命。這個(gè)革命的根本標(biāo)志就是人類(lèi)社會(huì)和行為的數(shù)字化荸频,以及兩個(gè)世界(物理世界和虛擬世界)的無(wú)縫融合菱肖。在這場(chǎng)革命中,人類(lèi)傳統(tǒng)的行業(yè)一個(gè)接一個(gè)被數(shù)字化行業(yè)取代:從金融系統(tǒng)到電子商務(wù)旭从,從機(jī)器人制造到無(wú)人駕駛汽車(chē)……

所以稳强,大數(shù)據(jù)變革與人類(lèi)歷史上其他重要變革是一樣的,需要經(jīng)過(guò)資源( 即大數(shù)據(jù))的原始積累和悦,商業(yè)和社會(huì)服務(wù)的差異化退疫,直到人類(lèi)對(duì)虛擬世界的行業(yè)、社會(huì)進(jìn)行再規(guī)范鸽素,以解決數(shù)據(jù)資源分配褒繁。這個(gè)歷史過(guò)程在上一個(gè)工業(yè)革命(十八世紀(jì)機(jī)器革命)時(shí)經(jīng)過(guò)了一百多年,但在這一次的革命中馍忽,將以更快的形式發(fā)生棒坏。

以此推論燕差,由大數(shù)據(jù)引發(fā)的下一代技術(shù)很可能是更大規(guī)模的、面向數(shù)字化行業(yè)的轉(zhuǎn)變,這使得現(xiàn)在物理世界里的眾多傳統(tǒng)行業(yè)將全面或部分地轉(zhuǎn)向數(shù)字世界俊抵,進(jìn)行融合谁不。這個(gè)轉(zhuǎn)變也讓許多領(lǐng)域以另一種形式出現(xiàn),使得許多行業(yè)在整體“食物鏈條”上下游有所改變徽诲。到了那一天刹帕,醫(yī)生、科學(xué)家和教師等“高大上”行業(yè)是否會(huì)成為大數(shù)據(jù)輸送原料的數(shù)據(jù)采集和解釋分析結(jié)果的“工人”?或是成為在大數(shù)據(jù)驅(qū)動(dòng)下的人工智能機(jī)器人的伙伴?這些都引人深思谎替。

感謝您的觀看偷溺,如有不足之處,歡迎批評(píng)指正钱贯。最后祝福所有遇到瓶頸的大數(shù)據(jù)程序員們突破自己挫掏,祝福大家在往后的工作與面試中一切順利。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末秩命,一起剝皮案震驚了整個(gè)濱河市尉共,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌弃锐,老刑警劉巖袄友,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異霹菊,居然都是意外死亡剧蚣,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門(mén)旋廷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)鸠按,“玉大人,你說(shuō)我怎么就攤上這事饶碘∧考猓” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵扎运,是天一觀的道長(zhǎng)卑雁。 經(jīng)常有香客問(wèn)我,道長(zhǎng)绪囱,這世上最難降的妖魔是什么测蹲? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮鬼吵,結(jié)果婚禮上扣甲,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好琉挖,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布启泣。 她就那樣靜靜地躺著,像睡著了一般示辈。 火紅的嫁衣襯著肌膚如雪寥茫。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,166評(píng)論 1 284
  • 那天矾麻,我揣著相機(jī)與錄音纱耻,去河邊找鬼。 笑死险耀,一個(gè)胖子當(dāng)著我的面吹牛弄喘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播甩牺,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼蘑志,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了贬派?” 一聲冷哼從身側(cè)響起急但,我...
    開(kāi)封第一講書(shū)人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎搞乏,沒(méi)想到半個(gè)月后波桩,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡查描,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年突委,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了柏卤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冬三。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖缘缚,靈堂內(nèi)的尸體忽然破棺而出勾笆,到底是詐尸還是另有隱情,我是刑警寧澤桥滨,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布异旧,位于F島的核電站振劳,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瓣戚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望楞泼。 院中可真熱鬧领追,春花似錦、人聲如沸唬血。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至脖律,卻和暖如春谢肾,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背小泉。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工芦疏, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人膏孟。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓眯分,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親柒桑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子弊决,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容