自去年AlphaGo戰(zhàn)勝李世石以來(lái)柱徙,AI的熱度一致居高不下雹食,將近期了解的概念簡(jiǎn)單梳理畜普,供大家學(xué)習(xí)和討論。
什么是大數(shù)據(jù)婉徘?大數(shù)據(jù)時(shí)代漠嵌,數(shù)據(jù)不再僅僅指數(shù)字或數(shù)字構(gòu)成的,數(shù)據(jù)的范疇要大的多盖呼。包括:互聯(lián)網(wǎng)上的任何內(nèi)容儒鹿,比如文字、圖片以及視頻几晤;書籍中的文字內(nèi)容约炎;醫(yī)院里包括醫(yī)學(xué)影像在內(nèi)的所有醫(yī)學(xué)檔案資料;公司里的設(shè)計(jì)圖紙蟹瘾、設(shè)計(jì)文檔等圾浅;科學(xué)研究中的各種觀測(cè)數(shù)據(jù)以及歷史研究成果;甚至我們?nèi)祟惢顒?dòng)本身憾朴,也可被看成一種特殊的數(shù)據(jù)狸捕,比如我們?cè)谖⑿排笥讶Φ壬缃痪W(wǎng)絡(luò)的行為,瀏覽網(wǎng)絡(luò)的記錄众雷,我們每天的出行軌跡灸拍、活動(dòng)范圍等。從以上數(shù)據(jù)來(lái)源的紛繁復(fù)雜性砾省,大數(shù)據(jù)的“大”的特征是不言而喻的鸡岗,但大數(shù)據(jù)的特征不僅僅是體量大,還需要具備多維度以及完備性的特點(diǎn)编兄,才足以刻畫出一個(gè)立體的事物轩性。
什么是人工智能?學(xué)術(shù)界將人工智能分為傳統(tǒng)人工智能方法和現(xiàn)代人工智能方法狠鸳。那么傳統(tǒng)人工智能方法是怎樣的呢揣苏?其實(shí)簡(jiǎn)單地講悯嗓,傳統(tǒng)人工智能的思路是,首先了解人類是如何產(chǎn)生智能的舒岸,然后讓機(jī)器按照人的思路去做绅作。這是對(duì)人工智能直覺(jué)認(rèn)識(shí),早期科學(xué)家也在這個(gè)方向上進(jìn)行了很長(zhǎng)時(shí)間的研究蛾派,到20世紀(jì)60年代末實(shí)在發(fā)展不下去了俄认。
20世紀(jì)70年代,人類開(kāi)始嘗試機(jī)器智能的另外一條發(fā)展道路洪乍,即采用數(shù)據(jù)驅(qū)動(dòng)和超級(jí)計(jì)算的方法眯杏。該方法首先被康內(nèi)爾大學(xué)的教授賈里尼克用于研究語(yǔ)音識(shí)別,在賈里尼克之前壳澳,各個(gè)大學(xué)和研究所得專家們?cè)谶@個(gè)問(wèn)題上已經(jīng)花了近20年的時(shí)間岂贩,主流的研究方法有兩個(gè)特點(diǎn):一是讓計(jì)算機(jī)盡可能地模擬人的發(fā)音特點(diǎn)和聽(tīng)覺(jué)特征,二是利用人工智能的方法理解人所講的完整語(yǔ)句巷波。對(duì)于第一項(xiàng)研究萎津,又被稱為特征提取,大家提取特征的方式不一抹镊,好壞也不一锉屈。對(duì)于第二項(xiàng)研究,大家都采用了傳統(tǒng)人工智能方法垮耳,基于語(yǔ)法規(guī)則和語(yǔ)義規(guī)則颈渊。但賈里尼克不是語(yǔ)言學(xué)專家,而是一位通信專家终佛,在他看來(lái)俊嗽,語(yǔ)音識(shí)別其實(shí)就是一個(gè)通信問(wèn)題。
典型的通信過(guò)程如圖1所示铃彰。對(duì)端是信息源绍豁,將所要表達(dá)的觀點(diǎn)組織成語(yǔ)言然后表達(dá)出來(lái),實(shí)際上是信息編碼的過(guò)程牙捉。信息源發(fā)出的語(yǔ)音通過(guò)聲道竹揍、空氣等媒介傳播到本端,本端對(duì)所接收的信息進(jìn)行解讀鹃共,理解對(duì)端意思的過(guò)程就是信息解碼的過(guò)程。既然是通信問(wèn)題驶拱,就采用解決通信問(wèn)題的方法霜浴,為此賈里尼克用兩個(gè)數(shù)學(xué)模型分別表示信源和信道,找到數(shù)學(xué)模型后蓝纲,下一步就是采用統(tǒng)計(jì)的方法用大數(shù)據(jù)訓(xùn)練模型的參數(shù)阴孟,這就是“機(jī)器學(xué)習(xí)”的過(guò)程晌纫。在這個(gè)過(guò)程中,需要有大量的數(shù)據(jù)和足夠的計(jì)算能力永丝。
數(shù)據(jù)使用的基本流程如圖2所示锹漱。首先獲取大量有效數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行分析慕嚷,總結(jié)事物的某種規(guī)律哥牍,將該規(guī)律固化成模型也就是知識(shí),后續(xù)遇到類似的問(wèn)題喝检,將其作為該系統(tǒng)的輸入嗅辣,即可預(yù)測(cè)結(jié)果。如果在系統(tǒng)非常復(fù)雜的時(shí)候挠说,我們無(wú)法直接獲得我們所需要的信息澡谭,我們可以將相關(guān)聯(lián)的信息量化,并且找到二者之間的相關(guān)關(guān)系损俭,對(duì)這種相關(guān)關(guān)系建立數(shù)學(xué)模型蛙奖,間接地得到我們所需的信息。也就是說(shuō)杆兵,對(duì)于有確定關(guān)系的問(wèn)題雁仲,我們可以通過(guò)分析得到固有的模型進(jìn)行描述。但是大千世界拧咳,并不是所有的事物都是有確定模型可描述的伯顶,對(duì)于這類不確定性問(wèn)題,通過(guò)分析數(shù)據(jù)間的相關(guān)性骆膝,以數(shù)據(jù)驅(qū)動(dòng)的方法進(jìn)行研究祭衩。詳細(xì)的分析見(jiàn)《大數(shù)據(jù)時(shí)代,我們應(yīng)該有怎樣的思維方式》一文阅签。
數(shù)據(jù)驅(qū)動(dòng)方法在20世紀(jì)70年代得以起步掐暮,在八九十年代得到緩慢穩(wěn)定的發(fā)展。進(jìn)入21世紀(jì)之后政钟,由于互聯(lián)網(wǎng)的出現(xiàn)路克,使得可用的數(shù)據(jù)量劇增,數(shù)據(jù)驅(qū)動(dòng)方法的人工智能優(yōu)勢(shì)越來(lái)越明顯养交,當(dāng)前正在從量變到質(zhì)變的飛躍中精算。