根據(jù)人大副院長文繼榮老師觀點(diǎn)綜合整理
文繼榮:信息科學(xué)領(lǐng)域博士,微軟研究院工作14年祝迂,主要研究搜索及大數(shù)據(jù)。2013年任人民大學(xué)副院長器净,大數(shù)據(jù)實驗室主任型雳。
“大數(shù)據(jù)”的概念已經(jīng)火了好幾年了,但大多數(shù)人都把它直接錯誤的理解為“數(shù)據(jù)大”而已山害,這樣的理解是錯誤的纠俭。
傳統(tǒng)思維中的理性主義總是希望從特殊到一般,我們總在找規(guī)律浪慌,這個是很重要的一個推動力冤荆,找到其中的規(guī)律就可以找到其中的多樣性,但是為什么是這樣权纤?因為在我們?nèi)祟惖臍v史上钓简,我們總是只能找到少量的樣本,然后從少量的樣本中找到規(guī)律汹想。
然而外邓,今天我們進(jìn)入大數(shù)據(jù)時代,使得我們的生活被記錄下來欧宜,很多時候就可以繞過模型坐榆。數(shù)據(jù)越多就越不需要模型。
舉例來講:如果已知一組數(shù)據(jù)冗茸,和一組結(jié)果席镀,很顯然我們可以給出一組函數(shù)來表達(dá)這兩組數(shù)據(jù)之間的關(guān)系,這兩組數(shù)據(jù)的相關(guān)性越差夏漱,那么函數(shù)越復(fù)雜豪诲,這就是我們常用的數(shù)據(jù)模型,但是挂绰,如果原始數(shù)據(jù)和結(jié)果這兩組數(shù)據(jù)足夠大屎篱,這里說的足夠大是代表,只要有一個源數(shù)據(jù)都會對應(yīng)一個目標(biāo)數(shù)據(jù)葵蒂,那么這個作為模型的函數(shù)便沒有存在意義了交播,這就是大數(shù)據(jù)原理最基礎(chǔ)的概念。也就是用足夠量的數(shù)據(jù)匹配取代傳統(tǒng)的數(shù)據(jù)之間的函數(shù)模型践付。
當(dāng)拿到一個新的樣本秦士,我們直接在結(jié)果的數(shù)據(jù)里面查找比對即可,這就是計算機(jī)最擅長的方面:記憶和計算能力永高。大數(shù)據(jù)就是利用計算機(jī)的特性從事分析工作隧土。
翻譯工具提针,就是這樣的典型模型,由于語言的復(fù)雜性曹傀,使得我們的翻譯函數(shù)模型很難做好辐脖。Google通過互聯(lián)網(wǎng)抓取所有針對某一句話的中文英文對比,來建立一張巨大的數(shù)據(jù)表皆愉,根據(jù)翻譯的實際語境嗜价,給出最大多數(shù)人選擇的結(jié)果,從而實現(xiàn)翻譯亥啦,這是目前翻譯軟件大部分的原理炭剪。
再比如聊天機(jī)器人的對話模擬,也是根據(jù)互聯(lián)網(wǎng)上海量的真人對話的“規(guī)律”翔脱,總結(jié)出最常用的回復(fù)奴拦,從而確定輸出內(nèi)容,同時也會保持前后的一致性届吁,甚至可以根據(jù)聊天者的不同性別错妖、愛好,給出不同的回答的方式疚沐。
再來說說美國大選預(yù)測暂氯,那也是從海量的互聯(lián)網(wǎng)對話數(shù)據(jù)中,根據(jù)地區(qū)性別的不同亮蛔,找出對上方的支持因素痴施,整理成數(shù)據(jù)加以甄別,大數(shù)據(jù)所得到的結(jié)果和最終實際結(jié)果幾乎完全相同究流。
還有一個例子就是最近非忱背裕火爆的AlphaGo,以前我們做下棋程序是靠計算芬探,考模型算法神得,國際象棋可以在面臨每一步時對各種可能性進(jìn)行計算,但在圍棋中是不能計算的偷仿。AlphaGo實際是收集了n多的盤棋局哩簿,而且可以自己和自己不斷下,它收集了很多很多樣本酝静,因此节榜,它現(xiàn)在下棋時就是依靠大數(shù)據(jù)選定贏的概率最大的一步。
大數(shù)據(jù)的定義:現(xiàn)代社會在掌握海量數(shù)據(jù)收集别智、存儲和處理技術(shù)基礎(chǔ)上所產(chǎn)生的一種以海量經(jīng)驗數(shù)據(jù)進(jìn)行判斷和預(yù)測的能力全跨,代表了一種新經(jīng)驗主義。傳統(tǒng)上講亿遂,經(jīng)驗主義不是褒義詞浓若,但我們必須明確,我們之前所講的經(jīng)驗主義是狹隘的蛇数、個人的挪钓、少量的經(jīng)驗,因此我們當(dāng)時強(qiáng)調(diào)理性主義耳舅。但現(xiàn)在碌上,伴隨數(shù)字化,我們的經(jīng)驗不是過去的經(jīng)驗浦徊,而是新經(jīng)驗主義馏予。
大數(shù)據(jù)和數(shù)據(jù)大是兩個完全不同的概念。傳統(tǒng)算法是從已知到未知盔性,給出已知數(shù)據(jù)通過模型算出未知數(shù)據(jù)霞丧,而大數(shù)據(jù)的功能是從已知到已知,給出一組數(shù)據(jù)冕香,他從已知的巨大數(shù)據(jù)庫中找出答案蛹尝。實際中,我們要把兩種方式相結(jié)合應(yīng)用悉尾。當(dāng)情況是已知的樣本時突那,可以直接用大數(shù)據(jù);當(dāng)情況不在樣本中時构眯,用模型解決愕难。
未來的時代是基于大數(shù)據(jù)的創(chuàng)業(yè)時代,包括大數(shù)據(jù)在各個垂直領(lǐng)域的深度需求開發(fā)惫霸、安全性維護(hù)以及人工智能領(lǐng)域的底層應(yīng)用猫缭,都是大數(shù)據(jù)的用武之地,對于天使投資人來講它褪,這也是時代所賦予的機(jī)遇饵骨。
線下溝通請加:one5ds?