在互聯(lián)網(wǎng)時代怀挠,大數(shù)據(jù)炙手可熱逛钻,許多人言必稱大數(shù)據(jù)芽淡,但能夠真正說清大數(shù)據(jù)為何物的人并不多舶替,如何借助大數(shù)據(jù)挖掘出巨大的商業(yè)價值。究竟如何定義大數(shù)據(jù)?大數(shù)據(jù)有哪些特征?本文旨在理清大數(shù)據(jù)概念播揪,闡明大數(shù)據(jù)應(yīng)用方式及探究未來大數(shù)據(jù)發(fā)展之道贮喧。
Q1:大數(shù)據(jù)是商業(yè)炒作嗎?
業(yè)界給大數(shù)據(jù)的定義是4 個“V”:體量大(Volume)、種類多(Variety)猪狈、速度快(Velocity)和真實性高(Veracity)箱沦。但這個定義其實并未抓住大數(shù)據(jù)本質(zhì)。如果僅僅看這幾個維度雇庙,大數(shù)據(jù)就是一種炒作谓形,因為它們只是表面現(xiàn)象。
大數(shù)據(jù)的本質(zhì)應(yīng)該是如何為企業(yè)帶來一種更新更好的商業(yè)運作模式疆前,而大數(shù)據(jù)應(yīng)用的成功寒跳,也是依靠決策者提出好的商業(yè)問題及與其相關(guān)的商業(yè)模式。這些商業(yè)問題可以非常簡單峡继,但問題背后必須有一系列相關(guān)的商業(yè)模式冯袍。
比如,如何運用智能手機應(yīng)用商城的數(shù)據(jù)碾牌, 來提高對用戶APP 推薦的精度?
隨后,利用應(yīng)用商城的大數(shù)據(jù)儡循,可以產(chǎn)生上百萬維的數(shù)據(jù)表舶吗,進而建立可靠準(zhǔn)確的推薦模型,使得用戶體驗水平大幅提升择膝。
大數(shù)據(jù)應(yīng)用成功的關(guān)鍵也正取決于是否有一個明確的商業(yè)(或科學(xué))目的誓琼,商業(yè)模式的定義是其前提條件。
Q2:數(shù)據(jù)越多越有用?
首先,如果收集大數(shù)據(jù)的目的是建立一個對位置數(shù)據(jù)的預(yù)測模型腹侣,那么叔收,得到這一模型的訓(xùn)練數(shù)據(jù)一定要包含所需的信息。但問題恰恰是傲隶,事前并不知道哪些特征是重要的饺律,因此,需要把盡量多的數(shù)據(jù)整合起來跺株,讓機器去尋找复濒。
然而,這個問題為什么不能去咨詢該領(lǐng)域內(nèi)的專家們呢?事實證明乒省,專家們雖然會自己解決問題巧颈,但大都說不清他們是如何解決這些問題的。這也就是為什么在大數(shù)據(jù)應(yīng)用中袖扛,專家的作用更多體現(xiàn)在幫助連接砸泛、聚合盡量多的數(shù)據(jù)上。
除此之外蛆封,要建立一個好的預(yù)測模型晾嘶,用來訓(xùn)練模型的數(shù)據(jù)總量也要足夠多。如果歷史數(shù)據(jù)少于一定規(guī)模娶吞,就會出現(xiàn)所謂“過擬合”(為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜)現(xiàn)象垒迂。例如,如果一個服裝品牌按照某一個模特的身材來設(shè)計妒蛇,衣服很可能做得偏瘦机断,以至于絕大多數(shù)其他消費者無法使用。這種“過擬合”現(xiàn)象在建立大數(shù)據(jù)下的預(yù)測模型時也會發(fā)生绣夺。
那么吏奸,數(shù)據(jù)的總量越大,是不是預(yù)測模型需要學(xué)習(xí)的時間就一定越長呢?答案是否定的陶耍。研究成果表明奋蔚,在一定條件下,當(dāng)數(shù)據(jù)變得越大烈钞,實際所需要的訓(xùn)練時間反而越短泊碑。為什么會這樣呢?可以想象:如果一個學(xué)生在學(xué)習(xí)某種概念時,只有少數(shù)習(xí)題毯欣,那么這個學(xué)生想透徹學(xué)會這個概念馒过,就需要把每一個習(xí)題翻來覆去地看,加以擴展酗钞,這樣學(xué)習(xí)的過程會比較慢腹忽。相反来累,如果他有許多不同類的習(xí)題,只需要把每一個習(xí)題過一遍窘奏,即可應(yīng)付未來的大部分情況嘹锁。因此,習(xí)題多的學(xué)生着裹,學(xué)到同樣水平的時間反而會短领猾。
Q3:人工智能將超過人類大腦?
經(jīng)過幾十年的探索,可以相信:機器的智能只能從針對大數(shù)據(jù)的學(xué)習(xí)中得來求冷,而大數(shù)據(jù)只能從人與人的交互瘤运、人與機器的交互中得來。如果想要這些交互產(chǎn)生足夠多的數(shù)據(jù)匠题,就一定要讓這些交互為人類提供有用的服務(wù)拯坟。
如今,什么數(shù)據(jù)最為充分?充分的數(shù)據(jù)首先是最容易被記錄的那一部分韭山,比如語音郁季、圖像、文字等钱磅。能不能直接獲取人類大腦活動信息梦裂,并以此來充實我們的智能呢?當(dāng)今的這種技術(shù)(如磁共振腦圖成像技術(shù))
還不夠精確,因此盖淡,通過學(xué)習(xí)得到的系統(tǒng)雖然在單方面可以超過人類大腦(如IBMWatson)年柠,但就通用性而言,現(xiàn)階段的人工智能比起人類大腦還差得很遠!
有沒有可能在不久之后的某天褪迟,具有人工智能的機器人成為人類的敵人呢?這是有可能的冗恨。但前提是:這些機器人的領(lǐng)袖一定是人類。
Q4:用戶隱私問題如何解決?
隱私問題的出現(xiàn)其實比大數(shù)據(jù)要早味赃,但隱私真正成為家喻戶曉的議題掀抹,卻是在大數(shù)據(jù)成為熱點之后。從斯諾登揭秘到蘋果數(shù)據(jù)上傳心俗,隨著越來越多媒體的爆料傲武,大家對隱私的關(guān)心程度也與日俱增。隱私問題的最大矛盾在于城榛,一方面揪利,數(shù)據(jù)被嚴(yán)嚴(yán)實實地包起來,另一方面吠谢,它又要被運用來發(fā)現(xiàn)有用的東西土童,不得不將之開放和上傳。
目前看來工坊,數(shù)據(jù)隱私問題有三個考慮: 1. 技術(shù);2. 用戶利益;3. 社會接受程度献汗。
從技術(shù)上來說,以前有關(guān)數(shù)據(jù)的解決方式大都是把數(shù)據(jù)從終端遷移到計算端(如計算中心)王污,得出結(jié)果后再把結(jié)果送到終端罢吃。這種方式無疑會引發(fā)隱私問題,因為一旦數(shù)據(jù)離開用戶的個人終端昭齐,就無從保證誰將有權(quán)利接觸數(shù)據(jù)尿招,數(shù)據(jù)的隱私也就無從保護了。
要保護隱私阱驾,一種新的模式是“計算隨著數(shù)據(jù)走”就谜,也就是利用終端自身的強大計算功能,在終端算好一個結(jié)果(如一個預(yù)測模型里覆,即本地模型)丧荐,再把這個模型與某一個通用模型加以整合。這種模式無疑會引入更多計算量與復(fù)雜性喧枷,目前還屬于前沿研究領(lǐng)域虹统。這種方法就像是有人要買股票,但又不想別人知道他自己的需求隧甚,只讀取網(wǎng)上有關(guān)股票的信息车荔,與自己知道的需求結(jié)合起來,做出買賣決策戚扳。只要每個人足夠聰明忧便,又有足夠的計算能力,這樣的系統(tǒng)就會最大程度地保護每個人的隱私帽借。
另一種做法是珠增,仍把數(shù)據(jù)傳輸?shù)接嬎阒行模趥鬏斨耙巳福瑢?shù)據(jù)加以改變切平,使其中的關(guān)鍵隱私信息在傳輸和計算中被隱藏起來,讓人無法反推原始的敏感數(shù)據(jù)(如用戶性別辐董、住址等)悴品,同時又保證計算結(jié)果的真實性和可用性。實際上简烘,一個更難的問題是:無論如何隱藏和加密原始數(shù)據(jù)苔严,用戶心里總有不放心的一點陰影。由于這個陰影的存在孤澎,用戶永遠不會相信一個單純靠技術(shù)的隱私保護計劃届氢。可以預(yù)見覆旭,在未來退子,隱私問題的解決程度將成為用戶選取產(chǎn)品的重要依據(jù)岖妄。
可是,大數(shù)據(jù)已經(jīng)來到人們身邊寂祥。今天社會上的每個人荐虐,實際上都是大數(shù)據(jù)的使用者。同時丸凭,又在不斷暴露自己的隱私福扬。比如,用戶使用免費的電子郵件賬戶惜犀,即便知道這些服務(wù)商在挖掘我們的郵件信息;用戶使用搜索引擎詢問各種問題铛碑,盡管這令我們的問題被記錄在案。既然如此虽界,為何用戶在使用大數(shù)據(jù)服務(wù)的時候汽烦,依舊樂此不疲呢?答案在于用戶利益與隱私暴露的費用比:如果用戶得到的利益大于個人數(shù)據(jù)泄露的價值,用戶還是會同意接受并分享這些數(shù)據(jù)的浓恳。因此刹缝,隱私問題的關(guān)鍵是,如何讓系統(tǒng)和用戶在矛盾中尋找到一個平衡點颈将。
最后梢夯,隨著技術(shù)的發(fā)展,社會對于數(shù)據(jù)分享的接受程度也會改變晴圾。上一代人所不能接受的事物颂砸,到下一代可能就不是大問題了。Facebook 就是個例子:實名制允許人們訪問他人的主頁死姚,并看到許多信息人乓,這一點在最開始引起不小的質(zhì)疑,但最后都毒,廣大青少年熱烈地?fù)肀н@一新技術(shù)色罚,并紛紛加入其中。
在此我向大家推薦一個大數(shù)據(jù)開發(fā)交流圈:658558542? ? (?點擊即可加入群聊)里面整理了一大份學(xué)習(xí)資料账劲,全都是些干貨戳护,包括大數(shù)據(jù)技術(shù)入門,大數(shù)據(jù)離線處理瀑焦、數(shù)據(jù)實時處理腌且、Hadoop 、Spark榛瓮、Flink铺董、推薦系統(tǒng)算法以及源碼解析等,送給每一位大數(shù)據(jù)小伙伴禀晓,讓自學(xué)更輕松精续。這里不止是小白聚集地坝锰,還有大牛在線解答!歡迎初學(xué)和進階中的小伙伴一起進群學(xué)習(xí)交流驻右,共同進步什黑!
Q5:運營商管道vs 互聯(lián)網(wǎng)用戶大數(shù)據(jù)?
互聯(lián)網(wǎng)與電信運營商的關(guān)系崎淳,可以用一個例子來理解:馬路上形形色色的車輛可以視為互聯(lián)網(wǎng)堪夭,車上所裝的貨物、乘客及運輸系統(tǒng)可以視為互聯(lián)網(wǎng)的數(shù)據(jù)和各種應(yīng)用拣凹,而車輛所走的高速公路類似于運營商提供的管道森爽。對于互聯(lián)網(wǎng)而言,它更關(guān)心乘客和貨物嚣镜,關(guān)心如何把他們安全送到目的地爬迟。但從運營商角度而言,它更關(guān)心的是道路是否通暢菊匿。從這一點來說付呕,互聯(lián)網(wǎng)的數(shù)據(jù)有關(guān)乘客和貨物,運營商的數(shù)據(jù)是車流量跌捆、道路擁塞的程度徽职。所以,互聯(lián)網(wǎng)的數(shù)據(jù)是終端用戶數(shù)據(jù)佩厚,運營商的數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)姆钉。
什么是關(guān)于數(shù)據(jù)的數(shù)據(jù)呢?以照片為例,像素點就是數(shù)據(jù)抄瓦,而照片大小潮瓶、類型、照片文件的產(chǎn)生時間與地點钙姊,就是數(shù)據(jù)的數(shù)據(jù)毯辅。
數(shù)據(jù)的數(shù)據(jù)在電信行業(yè)意義重大。但其前提是:資源無論到何時都是有限的煞额。管道再寬思恐,也是有限的。那么立镶,從運營商的角度來說壁袄,他們希望知道什么呢?還是以車和路來比喻:
你想知道如何為一些重要的常客開辟一條快速通道嗎?那就首先要知道哪些是重要的趁拿剑客嗜逻。只有知道了常客的群體缭召,痴磺辏客的特征逆日,才能有效抓取到他們。你想知道哪些重要車輛所屬的公司在受競爭對手的高速公路公司吸引萄凤,正考慮換路嗎?那就要分析這些車輛公司的痛點何在室抽。你想知道哪些路段需要特別維護,并派一些常駐維護車輛駐守嗎?那就需要分析哪些是容易受損的路段靡努。
這些對數(shù)據(jù)分析的需求隨著運營技術(shù)的前進而提升坪圾。在5G的場景下,運營商需要給大眾提供更密集惑朦、更快兽泄、更個性化的電信服務(wù),由此也就知道用戶的使用規(guī)律漾月、痛點病梢、服務(wù)軟肋在哪里。一個如影隨形的高端服務(wù)并非由無數(shù)服務(wù)員在所有用戶可能出現(xiàn)的地方等待梁肿,而是由一個聰明的服務(wù)員在用戶需要的時候及時出現(xiàn)蜓陌。未來的網(wǎng)絡(luò)技術(shù),如軟件定義網(wǎng)絡(luò)(SDN)吩蔑,就更需要大數(shù)據(jù)的支持:SDN 的大腦可以根據(jù)網(wǎng)絡(luò)大數(shù)據(jù)的深度挖掘所產(chǎn)生的修改钮热,而變得越來越聰明。
Q6:大數(shù)據(jù)和云計算哥纫、物聯(lián)網(wǎng)是什么關(guān)系?
如果把整個IT 流程看做一棵樹的話霉旗,物聯(lián)網(wǎng)就是這棵樹的葉子和枝干。如果傳感器網(wǎng)絡(luò)所感知的信息是有關(guān)“人”的信息蛀骇,比如用戶在網(wǎng)上購買商品的信息厌秒,或與人的移動行為和動機相關(guān)的信息,那么它就會有極大的商業(yè)價值擅憔,對這種數(shù)據(jù)的需求也會劇增鸵闪。人的心理因素是世上最復(fù)雜的,對應(yīng)著某種動機和意識的行為暑诸、動作也千差萬別蚌讼。人與人的關(guān)系組成了無窮多的維度,而大數(shù)據(jù)正是這些維度疊加而成的个榕。這些數(shù)據(jù)不僅包括人本身的語言篡石、文字、動作西采、視覺數(shù)據(jù)凰萨,更是人與人之間關(guān)系的數(shù)據(jù)。凡是與人相關(guān)的活動數(shù)據(jù),都是最值得收集的數(shù)據(jù)胖眷,與之相關(guān)的需求則永遠存在武通。
所以說,關(guān)于人的數(shù)據(jù)才是大數(shù)據(jù)珊搀。物聯(lián)網(wǎng)只有考慮到人這種廣義的“物”冶忱,才最有價值。否則境析,物聯(lián)網(wǎng)所傳輸?shù)臄?shù)據(jù)無論從復(fù)雜度還是商業(yè)目的而言囚枪,都極為有限。
大數(shù)據(jù)和云計算的關(guān)系則在于簿晓,大數(shù)據(jù)的成功應(yīng)用除了“大”眶拉,還有三個必要條件:實時在線、對事件的全面描述以及產(chǎn)生差異化的效果憔儿。云計算使得這三個必要條件得以滿足。
首先放可,云計算使人們可以隨時隨地使用存儲和計算谒臼,使大量數(shù)據(jù)得以及時被采集和分析。手機上APP應(yīng)用云的服務(wù)就是一個云計算的例子耀里。由于存儲和計算成本的降低蜈缤,云計算起到了實時在線的作用, 從而使得更多的人愿意使用云服務(wù)冯挎,大數(shù)據(jù)的雪球由此可以滾動起來底哥。
云計算的另一個好處是可以實現(xiàn)大規(guī)模的數(shù)據(jù)整合。當(dāng)今世界并不是為大數(shù)據(jù)應(yīng)用準(zhǔn)備的房官,因為大量數(shù)據(jù)集散落在不同地方趾徽,以不同方式存放,其擁有者也是不同的人翰守。在云計算條件下孵奶,很多大規(guī)模數(shù)據(jù)整合的問題都會得到解決。當(dāng)大家數(shù)據(jù)放在一起時蜡峰,數(shù)據(jù)整合的門檻會大幅降低了袁,因此湿颅,大數(shù)據(jù)也會像核物理的聚變一樣,產(chǎn)生成倍的效果。
Q7:有了大數(shù)據(jù),我們還需要專家嗎?
在大數(shù)據(jù)時代,專家的一部分作用確實可以被大數(shù)據(jù)應(yīng)用所取代。例如挎袜,推薦金融產(chǎn)品時全景,專家需要將特定金融產(chǎn)品推薦給特定客戶炕贵。這些客戶有以下特點:接受這一推薦的可能性很高钥弯,同時狈惫,對其他客戶的影響力也很強,在接受這一產(chǎn)品的同時场仲,他們很有可能會把產(chǎn)品消息向親朋好友傳播鸽素。這一重要的市場工作過去是由專業(yè)的市場部門經(jīng)理來完成的。然而在大數(shù)據(jù)應(yīng)用中亦鳞,通過對大數(shù)據(jù)的整合分析得出的大規(guī)模推薦模型的推薦效果馍忽,是市場部專家的二十倍以上。
這個例子說明:首先蚜迅,在傳統(tǒng)商業(yè)領(lǐng)域舵匾,大數(shù)據(jù)的功效確實能夠取代并超越人的作用。在過去的實踐中谁不,市場專家最多能夠判別十幾維的數(shù)據(jù),而數(shù)據(jù)挖掘模型卻可以處理幾萬維甚至幾千萬維的數(shù)據(jù);其次徽诲,取得這么好的效果需要做許多前期工作刹帕,如搭建數(shù)據(jù)平臺、整合不同數(shù)據(jù)谎替、建立分析預(yù)測模型偷溺,以及利用模型對未來數(shù)據(jù)進行分析決策。
這些研究人員具有三個突出特點:
一是非常強的駕馭數(shù)據(jù)管理系統(tǒng)和快速編程的能力钱贯,
二是和業(yè)務(wù)專家溝通并理解業(yè)務(wù)目標(biāo)及約束能力挫掏、分析數(shù)據(jù)的能力,
三是與模型連接并預(yù)測到業(yè)務(wù)決策的能力秩命。具有這些能力的人尉共,我們稱其為數(shù)據(jù)科學(xué)家。
所以弃锐,有了大數(shù)據(jù)之后袄友,專家依然是需要的,只不過專家在決策過程中的作用與焦點改變了:專家已經(jīng)不能獨享成功霹菊,而一定要和大數(shù)據(jù)系統(tǒng)共同完成一項復(fù)雜的任務(wù)剧蚣。大數(shù)據(jù)做了以往專家在數(shù)據(jù)分析領(lǐng)域的工作,但專家對于專業(yè)領(lǐng)域的價值和經(jīng)驗依舊無法取代。建立數(shù)據(jù)分析模型需要理解業(yè)務(wù)及業(yè)務(wù)目標(biāo)鸠按,這仍需要專家的研究和貢獻礼搁,畢竟外行還是不能領(lǐng)導(dǎo)內(nèi)行。
在此我向大家推薦一個大數(shù)據(jù)開發(fā)交流圈:658558542? ? (?點擊即可加入群聊)里面整理了一大份學(xué)習(xí)資料目尖,全都是些干貨馒吴,包括大數(shù)據(jù)技術(shù)入門,大數(shù)據(jù)離線處理卑雁、數(shù)據(jù)實時處理募书、Hadoop 、Spark测蹲、Flink莹捡、推薦系統(tǒng)算法以及源碼解析等,送給每一位大數(shù)據(jù)小伙伴扣甲,讓自學(xué)更輕松篮赢。這里不止是小白聚集地,還有大牛在線解答琉挖!歡迎初學(xué)和進階中的小伙伴一起進群學(xué)習(xí)交流启泣,共同進步!
Q8:大數(shù)據(jù)最適合做什么?
大數(shù)據(jù)的發(fā)展和其他任何技術(shù)的發(fā)展路徑一樣示辈,都需要經(jīng)過“初始化- 極端膨脹- 較大失望- 理性思考-成功應(yīng)用”這個逐漸成熟的過程寥茫。在歷史上,聽起來先進的技術(shù)在這個過程中卻消失的例子比比皆是矾麻。那些成功的技術(shù)一定要經(jīng)得起理性的思考和時間的考驗纱耻,以找到它們在實踐中最合適的落腳點。
目前险耀,大數(shù)據(jù)有一個作用可能還沒有被注意到——大數(shù)據(jù)可以連接大量不同的數(shù)據(jù)孤島弄喘,使得大數(shù)據(jù)所覆蓋的范圍更大更廣,也使得大數(shù)據(jù)驅(qū)動的業(yè)務(wù)隨著這個雪球越滾越大甩牺。這樣蘑志,使用者可以不斷得到新的數(shù)據(jù), 而用戶也能不斷得到新的服務(wù)贬派。
從現(xiàn)在大數(shù)據(jù)成功應(yīng)用的領(lǐng)域來推斷急但,應(yīng)用最多的應(yīng)該是集中在對過去事件的存儲、抽取赠群,以及對不同數(shù)據(jù)的聚合聯(lián)通羊始、總結(jié)統(tǒng)計上。大數(shù)據(jù)聚合的重要作用之一是關(guān)聯(lián)不同數(shù)據(jù)之間發(fā)生的個別事件查描。通過連通突委,實時發(fā)現(xiàn)事件真相柏卤。有了這樣的數(shù)據(jù)就可以做以下分析:某個事件在發(fā)生的同時還會發(fā)生什么其他事件?如何通過過去數(shù)據(jù)來預(yù)測未來可能發(fā)生的事件?如何能夠自動建議,用某種行為來促使某些事件發(fā)生匀油,或保證某些事件不發(fā)生?等等缘缚。
Q9:大數(shù)據(jù)不能做什么?
大數(shù)據(jù)明顯不是萬能的,那么敌蚜,大數(shù)據(jù)不能做什么呢?
不能替代有效的商業(yè)模式桥滨。大數(shù)據(jù)的應(yīng)用不能沒有商業(yè)模式,比如如何在大數(shù)據(jù)業(yè)務(wù)中為用戶帶來價值弛车,使得數(shù)據(jù)成長和商業(yè)增長同步等等齐媒。而商業(yè)模式顯然不是能從大數(shù)據(jù)本身挖掘的,而是由具備豐富經(jīng)驗的專家來確定的纷跛。
不能沒有領(lǐng)導(dǎo)的決斷力喻括。在今天的大部分公司中,數(shù)據(jù)的存在形式無異于一個個孤島贫奠。把這些數(shù)據(jù)整合起來不僅是個技術(shù)活唬血,還有很強的管理因素。往往在同一個公司的不同部門會有很多競爭唤崭,數(shù)據(jù)就是一個部門的資產(chǎn)拷恨。雖然把幾種不同數(shù)據(jù)聚合在一起會很有價值,但能真正做到這一點的公司卻會發(fā)現(xiàn)谢肾,要成功做到數(shù)據(jù)整合需要更高級領(lǐng)導(dǎo)的決斷力腕侄。這也是為什么一些很有前瞻性的公司會專門有一個部門來負(fù)責(zé)全公司的數(shù)據(jù)業(yè)務(wù)。
不能無目的地挖掘芦疏。在大數(shù)據(jù)的初學(xué)者當(dāng)中兜挨,有一個普遍的錯覺:當(dāng)我們有了足夠的數(shù)據(jù),就可以在其中漫無目的地找到知識眯分。這樣的錯覺實際上是不科學(xué)的。數(shù)據(jù)挖掘需要約束與目標(biāo)柒桑,否則就是大海撈針弊决,必然是徒勞的。比如魁淳,開普勒的成功是建立在以太陽為焦點的橢圓形假設(shè)上的飘诗。
不能沒有專家。上文提到界逛,大數(shù)據(jù)在不同應(yīng)用領(lǐng)域會需要不同的專業(yè)知識來指導(dǎo)昆稿。而不同的領(lǐng)域, 需要專家們的參與程度也會不同息拜。G o o g l e實驗室有一個在大量圖片和視頻數(shù)據(jù)中溉潭,讓計算機自動識別貓臉的例子净响。但這樣的深度學(xué)習(xí)很難推廣到其他大數(shù)據(jù)的領(lǐng)域。因為喳瓣,成功的先決條件之一是該領(lǐng)域本身具有非常直觀的層次結(jié)構(gòu)馋贤,就像圖片的構(gòu)成一樣。如果某個領(lǐng)域的數(shù)據(jù)不具備這樣的層次結(jié)構(gòu)畏陕, 就很難用同樣的方法自動發(fā)現(xiàn)規(guī)律配乓。而這樣一個結(jié)構(gòu)是需要數(shù)據(jù)科學(xué)家來定義的。
不能一次建模惠毁, 終生受益犹芹。一個好的模型需要不斷更新, 需要終生學(xué)習(xí)(Lifelong Machine Learning)來不斷改進鞠绰。例如腰埂,在奧巴馬的競選中,科學(xué)家建立了一個用戶投票模型洞豁,來預(yù)測選民可能的立場盐固,而這個模型是每周利用更新的數(shù)據(jù)來更新一次的。
不擅長做全局性的優(yōu)化分析丈挟。大數(shù)據(jù)下的主要數(shù)據(jù)處理方法是“分而治之”刁卜,即把大的數(shù)據(jù)分為小塊,一塊一塊地處理曙咽,然后再把結(jié)果合并蛔趴。這個過程也許要經(jīng)過很多次,但總的思想是這樣分化例朱、合并之后的結(jié)果孝情,與全局計算的結(jié)果是一樣的。但是洒嗤,還有很多問題是不能這樣來解決的箫荡。比如,在下圍棋的時候渔隶,每一個棋子的目的可能和整個戰(zhàn)略都相關(guān)羔挡,所以分而治之的想法是行不通的。
不能沒有對其語義的標(biāo)注间唉。目前只能通過對數(shù)據(jù)的標(biāo)識賦予其意義绞灼。比如,推薦系統(tǒng)在沒有用戶反饋的情況下效果很差呈野,而通過現(xiàn)有的心理學(xué)模型等加強其效果都無效低矮。一般來說,如果試圖從數(shù)據(jù)中發(fā)現(xiàn)知識被冒,則需要大量的數(shù)據(jù)標(biāo)注军掂。往往在一個和用戶有直接互動的應(yīng)用中是可以得到這樣的標(biāo)識數(shù)據(jù)的轮蜕。要得到大量的標(biāo)識數(shù)據(jù),不僅需要一個平臺來承載有用的應(yīng)用良姆,而且需要一個對人肠虽、對大數(shù)據(jù)系統(tǒng)的雙贏經(jīng)濟學(xué)模型。
不能僅用有偏的數(shù)據(jù)玛追。數(shù)據(jù)一定要全面地反映未來, 對各個方面都有所涉及税课。如果數(shù)據(jù)是有偏的,則很難對未來進行有效地判斷痊剖。
不能保證包含有效的信息韩玩。當(dāng)數(shù)據(jù)中的關(guān)鍵特征缺失時,大數(shù)據(jù)就無法矯正數(shù)據(jù)與現(xiàn)實之間的偏差陆馁,尤其是對于那種與人的心理和行為相關(guān)的數(shù)據(jù)找颓,非常容易產(chǎn)生偏差。問題的關(guān)鍵是:研究之前叮贩,專家并不知道哪些特征是關(guān)鍵特征击狮。比如股價受到“黑天鵝”事件影響,使得無法用大數(shù)據(jù)預(yù)測關(guān)鍵事件發(fā)生的概率益老。這就像一個輸入管道:垃圾輸入導(dǎo)致垃圾輸出彪蓬。這也是為什么某些電影的實際票房和從網(wǎng)上評價數(shù)據(jù)得來的結(jié)果是背道而馳的。
不能保證減小噪音捺萌。這是因為在大數(shù)據(jù)里面档冬,噪音數(shù)據(jù)的出現(xiàn)往往會以有意義的模式的形式出現(xiàn),從而騙過知識挖掘系統(tǒng)桃纯。這樣酷誓,大數(shù)據(jù)可能帶來更大的噪音。
Q10:后大數(shù)據(jù)時代的技術(shù)趨勢是什么?
大數(shù)據(jù)所帶來的變革态坦,只不過是計算機技術(shù)為整個人類帶來變革當(dāng)中的一步盐数。計算機從上世紀(jì)五十年代起,就在人類歷史上開始了潛移默化的革命伞梯。這個革命的根本標(biāo)志就是人類社會和行為的數(shù)字化娘扩,以及兩個世界(物理世界和虛擬世界)的無縫融合。在這場革命中壮锻,人類傳統(tǒng)的行業(yè)一個接一個被數(shù)字化行業(yè)取代:從金融系統(tǒng)到電子商務(wù)冷蚂,從機器人制造到無人駕駛汽車……
所以汗贫,大數(shù)據(jù)變革與人類歷史上其他重要變革是一樣的滔灶,需要經(jīng)過資源( 即大數(shù)據(jù))的原始積累说贝,商業(yè)和社會服務(wù)的差異化砍鸠,直到人類對虛擬世界的行業(yè)污秆、社會進行再規(guī)范筝尾,以解決數(shù)據(jù)資源分配丙唧。這個歷史過程在上一個工業(yè)革命(十八世紀(jì)機器革命)時經(jīng)過了一百多年,但在這一次的革命中辣之,將以更快的形式發(fā)生掰伸。
以此推論,由大數(shù)據(jù)引發(fā)的下一代技術(shù)很可能是更大規(guī)模的怀估、面向數(shù)字化行業(yè)的轉(zhuǎn)變,這使得現(xiàn)在物理世界里的眾多傳統(tǒng)行業(yè)將全面或部分地轉(zhuǎn)向數(shù)字世界狮鸭,進行融合。這個轉(zhuǎn)變也讓許多領(lǐng)域以另一種形式出現(xiàn)多搀,使得許多行業(yè)在整體“食物鏈條”上下游有所改變歧蕉。到了那一天,醫(yī)生康铭、科學(xué)家和教師等“高大上”行業(yè)是否會成為大數(shù)據(jù)輸送原料的數(shù)據(jù)采集和解釋分析結(jié)果的“工人”?或是成為在大數(shù)據(jù)驅(qū)動下的人工智能機器人的伙伴?這些都引人深思惯退。
感謝您的觀看,如有不足之處从藤,歡迎批評指正催跪。最后祝福所有遇到瓶頸的大數(shù)據(jù)程序員們突破自己,祝福大家在往后的工作與面試中一切順利夷野。