大數(shù)據(jù)到底是個什么鬼消返?

根據(jù)人大副院長文繼榮老師觀點(diǎn)綜合整理

文繼榮:信息科學(xué)領(lǐng)域博士,微軟研究院工作14年祝迂,主要研究搜索及大數(shù)據(jù)。2013年任人民大學(xué)副院長器净,大數(shù)據(jù)實驗室主任型雳。


“大數(shù)據(jù)”的概念已經(jīng)火了好幾年了,但大多數(shù)人都把它直接錯誤的理解為“數(shù)據(jù)大”而已山害,這樣的理解是錯誤的纠俭。

傳統(tǒng)思維中的理性主義總是希望從特殊到一般,我們總在找規(guī)律浪慌,這個是很重要的一個推動力冤荆,找到其中的規(guī)律就可以找到其中的多樣性,但是為什么是這樣权纤?因為在我們?nèi)祟惖臍v史上钓简,我們總是只能找到少量的樣本,然后從少量的樣本中找到規(guī)律汹想。

然而外邓,今天我們進(jìn)入大數(shù)據(jù)時代,使得我們的生活被記錄下來欧宜,很多時候就可以繞過模型坐榆。數(shù)據(jù)越多就越不需要模型。

舉例來講:如果已知一組數(shù)據(jù)冗茸,和一組結(jié)果席镀,很顯然我們可以給出一組函數(shù)來表達(dá)這兩組數(shù)據(jù)之間的關(guān)系,這兩組數(shù)據(jù)的相關(guān)性越差夏漱,那么函數(shù)越復(fù)雜豪诲,這就是我們常用的數(shù)據(jù)模型,但是挂绰,如果原始數(shù)據(jù)和結(jié)果這兩組數(shù)據(jù)足夠大屎篱,這里說的足夠大是代表,只要有一個源數(shù)據(jù)都會對應(yīng)一個目標(biāo)數(shù)據(jù)葵蒂,那么這個作為模型的函數(shù)便沒有存在意義了交播,這就是大數(shù)據(jù)原理最基礎(chǔ)的概念。也就是用足夠量的數(shù)據(jù)匹配取代傳統(tǒng)的數(shù)據(jù)之間的函數(shù)模型践付。

當(dāng)拿到一個新的樣本秦士,我們直接在結(jié)果的數(shù)據(jù)里面查找比對即可,這就是計算機(jī)最擅長的方面:記憶和計算能力永高。大數(shù)據(jù)就是利用計算機(jī)的特性從事分析工作隧土。

翻譯工具提针,就是這樣的典型模型,由于語言的復(fù)雜性曹傀,使得我們的翻譯函數(shù)模型很難做好辐脖。Google通過互聯(lián)網(wǎng)抓取所有針對某一句話的中文英文對比,來建立一張巨大的數(shù)據(jù)表皆愉,根據(jù)翻譯的實際語境嗜价,給出最大多數(shù)人選擇的結(jié)果,從而實現(xiàn)翻譯亥啦,這是目前翻譯軟件大部分的原理炭剪。

再比如聊天機(jī)器人的對話模擬,也是根據(jù)互聯(lián)網(wǎng)上海量的真人對話的“規(guī)律”翔脱,總結(jié)出最常用的回復(fù)奴拦,從而確定輸出內(nèi)容,同時也會保持前后的一致性届吁,甚至可以根據(jù)聊天者的不同性別错妖、愛好,給出不同的回答的方式疚沐。

再來說說美國大選預(yù)測暂氯,那也是從海量的互聯(lián)網(wǎng)對話數(shù)據(jù)中,根據(jù)地區(qū)性別的不同亮蛔,找出對上方的支持因素痴施,整理成數(shù)據(jù)加以甄別,大數(shù)據(jù)所得到的結(jié)果和最終實際結(jié)果幾乎完全相同究流。

還有一個例子就是最近非忱背裕火爆的AlphaGo,以前我們做下棋程序是靠計算芬探,考模型算法神得,國際象棋可以在面臨每一步時對各種可能性進(jìn)行計算,但在圍棋中是不能計算的偷仿。AlphaGo實際是收集了n多的盤棋局哩簿,而且可以自己和自己不斷下,它收集了很多很多樣本酝静,因此节榜,它現(xiàn)在下棋時就是依靠大數(shù)據(jù)選定贏的概率最大的一步。

大數(shù)據(jù)的定義:現(xiàn)代社會在掌握海量數(shù)據(jù)收集别智、存儲和處理技術(shù)基礎(chǔ)上所產(chǎn)生的一種以海量經(jīng)驗數(shù)據(jù)進(jìn)行判斷和預(yù)測的能力全跨,代表了一種新經(jīng)驗主義。傳統(tǒng)上講亿遂,經(jīng)驗主義不是褒義詞浓若,但我們必須明確,我們之前所講的經(jīng)驗主義是狹隘的蛇数、個人的挪钓、少量的經(jīng)驗,因此我們當(dāng)時強(qiáng)調(diào)理性主義耳舅。但現(xiàn)在碌上,伴隨數(shù)字化,我們的經(jīng)驗不是過去的經(jīng)驗浦徊,而是新經(jīng)驗主義馏予。

大數(shù)據(jù)和數(shù)據(jù)大是兩個完全不同的概念。傳統(tǒng)算法是從已知到未知盔性,給出已知數(shù)據(jù)通過模型算出未知數(shù)據(jù)霞丧,而大數(shù)據(jù)的功能是從已知到已知,給出一組數(shù)據(jù)冕香,他從已知的巨大數(shù)據(jù)庫中找出答案蛹尝。實際中,我們要把兩種方式相結(jié)合應(yīng)用悉尾。當(dāng)情況是已知的樣本時突那,可以直接用大數(shù)據(jù);當(dāng)情況不在樣本中時构眯,用模型解決愕难。

未來的時代是基于大數(shù)據(jù)的創(chuàng)業(yè)時代,包括大數(shù)據(jù)在各個垂直領(lǐng)域的深度需求開發(fā)惫霸、安全性維護(hù)以及人工智能領(lǐng)域的底層應(yīng)用猫缭,都是大數(shù)據(jù)的用武之地,對于天使投資人來講它褪,這也是時代所賦予的機(jī)遇饵骨。

線下溝通請加:one5ds?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市茫打,隨后出現(xiàn)的幾起案子居触,更是在濱河造成了極大的恐慌,老刑警劉巖老赤,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件轮洋,死亡現(xiàn)場離奇詭異,居然都是意外死亡抬旺,警方通過查閱死者的電腦和手機(jī)弊予,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來开财,“玉大人汉柒,你說我怎么就攤上這事误褪。” “怎么了碾褂?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵兽间,是天一觀的道長。 經(jīng)常有香客問我正塌,道長嘀略,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任乓诽,我火速辦了婚禮帜羊,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘鸠天。我一直安慰自己讼育,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布粮宛。 她就那樣靜靜地躺著窥淆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪巍杈。 梳的紋絲不亂的頭發(fā)上忧饭,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天,我揣著相機(jī)與錄音筷畦,去河邊找鬼词裤。 笑死,一個胖子當(dāng)著我的面吹牛鳖宾,可吹牛的內(nèi)容都是我干的吼砂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鼎文,長吁一口氣:“原來是場噩夢啊……” “哼渔肩!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起拇惋,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤周偎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后撑帖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蓉坎,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年胡嘿,在試婚紗的時候發(fā)現(xiàn)自己被綠了蛉艾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖勿侯,靈堂內(nèi)的尸體忽然破棺而出拓瞪,到底是詐尸還是另有隱情,我是刑警寧澤罐监,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布吴藻,位于F島的核電站,受9級特大地震影響弓柱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜侧但,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一矢空、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧禀横,春花似錦屁药、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至趾娃,卻和暖如春缭嫡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背抬闷。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工妇蛀, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人笤成。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓评架,卻偏偏與公主長得像,于是被迫代替她去往敵國和親炕泳。 傳聞我的和親對象是個殘疾皇子纵诞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容