2012年, 加州山景城,Google秘密的X實(shí)驗(yàn)室掂为,在Andrew Y.Ng的帶領(lǐng)下裕膀,科學(xué)家們通過(guò)連接16000個(gè)處理器為機(jī)器學(xué)習(xí)建立了當(dāng)時(shí)規(guī)模最大的神經(jīng)網(wǎng)絡(luò), 檢索了YouTube視頻中分幀出來(lái)的千萬(wàn)張照片勇哗,任務(wù)只有一個(gè): 找貓咪昼扛!
不就是找貓咪嗎?這么簡(jiǎn)單的任務(wù)需要這么多服務(wù)器? 一個(gè)三歲小孩都能輕松完成欲诺。對(duì)于人類來(lái)說(shuō)這就是與生俱來(lái)的能力抄谐,掃一眼就知道是貓是狗,但是從程序員的角度來(lái)看這件事真的相當(dāng)困難扰法,按照傳統(tǒng)的編程思路斯稳,可能先要定義貓的極度精細(xì)的特征,必須要非常精細(xì)迹恐,否則那么多的貓科動(dòng)物如何區(qū)分? 然后再?gòu)膱D片摳出物體邊緣進(jìn)行對(duì)比挣惰,但是一來(lái)因?yàn)樨埖拇笮∑贩N顏色姿態(tài)角度各異,特征很難描述的準(zhǔn)確殴边,極度容易陷入各種異常和邊界場(chǎng)景的泥沼之中憎茂。二來(lái)就算把識(shí)別貓的問(wèn)題解決了,下次要識(shí)別狗或者其它物體怎么辦? 事件萬(wàn)物難道都要抽象出其特征一一編碼實(shí)現(xiàn)嗎? 這根本就是不可能完成的任務(wù)锤岸,反正我是肯定寫(xiě)不出來(lái)這么復(fù)雜的代碼的竖幔。
Google的方案具有跨時(shí)代意義,通過(guò)模擬人類大腦視覺(jué)皮層的運(yùn)作方式準(zhǔn)確地印證了生物學(xué)家的理論-單個(gè)神經(jīng)元通過(guò)在大腦內(nèi)接受的訓(xùn)練是偷,獲得識(shí)別物體的能力拳氢。不需要程序員找出貓的規(guī)律,只要為算法提供海量數(shù)據(jù)蛋铆,喂給機(jī)器百萬(wàn)張照片馋评,機(jī)器就能自我學(xué)習(xí)自動(dòng)找出物體內(nèi)在的規(guī)則從而辨別出貓,這才是以不變應(yīng)萬(wàn)變的通用解決辦法刺啦。
人類的視覺(jué)系統(tǒng)
大腦視覺(jué)皮層和神經(jīng)元聽(tīng)上去比較玄乎留特,到底是什么東西? 我們先來(lái)簡(jiǎn)單科普一下人類的視覺(jué)系統(tǒng): 人腦有一個(gè)初級(jí)視覺(jué)大腦皮層V1, 由1.4億個(gè)神經(jīng)元和數(shù)以百億的神經(jīng)元的連接線組成。當(dāng)處理復(fù)雜圖像的時(shí)候玛瘸,還有一系列的視覺(jué)大腦皮層(V2, V3, V4, V5/MT, V6)層層加工蜕青,V1首先加工視覺(jué)信息,這一層的主要功能是識(shí)別點(diǎn)和不同角度的線來(lái)辨識(shí)物體糊渊,V2和V3不負(fù)責(zé)特定功能右核,而是協(xié)助V1對(duì)各種信息進(jìn)行加工整合,完成高級(jí)的神經(jīng)精神活動(dòng), V4主要負(fù)責(zé)辨別顏色渺绒,V5負(fù)責(zé)運(yùn)動(dòng)視覺(jué)贺喝,此后視覺(jué)信息兵分兩路菱鸥,主要分為視覺(jué)的背側(cè)通路(Dorsal Pathway)與腹側(cè)通路(Ventral Pathway)。簡(jiǎn)單來(lái)說(shuō)搜变,就是腹側(cè)通路告訴我們“What”采缚,背側(cè)通路告訴我們“Where”。
我們接著認(rèn)識(shí)一下兩種重要的人工神經(jīng)元Perceptron(感知機(jī)) 和 Sigmoid神經(jīng)元挠他。
感知機(jī)
感知機(jī)是Frank Rosenblatt在1957年就職于Cornell航空實(shí)驗(yàn)室(Cornell Aeronautical Laboratory)時(shí)所發(fā)明的一種人工神經(jīng)網(wǎng)絡(luò)扳抽,這也是人工智能發(fā)展史上的一個(gè)里程碑事件。它可以被視為一種最簡(jiǎn)單形式的前饋式人工神經(jīng)網(wǎng)絡(luò)殖侵,屬于二元線性分類器贸呢。
感知機(jī)是生物神經(jīng)細(xì)胞的簡(jiǎn)單抽象。神經(jīng)細(xì)胞結(jié)構(gòu)大致可分為:Dendrite(樹(shù)突), Synaptic Terminals(突觸), Cell Body(細(xì)胞體)及Axon(軸突)拢军。單個(gè)神經(jīng)細(xì)胞可被視為一種只有兩種狀態(tài)的機(jī)器 - 激動(dòng)時(shí)為‘是’楞陷,而未激動(dòng)時(shí)為‘否’。神經(jīng)細(xì)胞的狀態(tài)取決于從其它的神經(jīng)細(xì)胞收到的輸入信號(hào)量茉唉,及突觸的強(qiáng)度(抑制或加強(qiáng))固蛾。當(dāng)信號(hào)量總和超過(guò)了某個(gè)閾值時(shí),細(xì)胞體就會(huì)激動(dòng)度陆,產(chǎn)生電脈沖艾凯。電脈沖沿著軸突并通過(guò)突觸傳遞到其它神經(jīng)元。
感知機(jī)接受x1, x2,...多個(gè)輸入值懂傀,然后通過(guò)計(jì)算得出一個(gè)唯一的輸出值趾诗。
Rosenblatt引入了weight(權(quán)重)的概念,w1, w2,..., 通過(guò)判斷x和w的乘積之和是否大于某個(gè)閾值來(lái)決定感知機(jī)的輸出是0(非激活)還是1(激活). 用數(shù)學(xué)公式表達(dá)如下:
回憶一下我之前舉的如何挑選榴蓮的例子蹬蚁,這就相當(dāng)于模擬了人腦做決策最簡(jiǎn)單的過(guò)程恃泪。當(dāng)然人腦的決策過(guò)程沒(méi)有這么簡(jiǎn)單,為了模擬更復(fù)雜的決策過(guò)程犀斋,感知機(jī)可以分為多層來(lái)實(shí)現(xiàn)贝乎。最左邊一列是第一層感知機(jī)得出三個(gè)簡(jiǎn)單的決策,作為輸入傳遞給更為復(fù)雜和抽象的第二層感知機(jī)闪水,最終得出一個(gè)唯一的輸出值糕非。
接下來(lái)我們引入挑榴蓮例子中的bias(偏差)簡(jiǎn)化一下前面的公式(將threshold移到公式的左側(cè)),顯然bias越大越容易激活∏蛴埽現(xiàn)在可以回頭看看生物神經(jīng)細(xì)胞,其實(shí)這個(gè)激活函數(shù)就是模擬細(xì)胞體禁筏,權(quán)重就是模擬突觸持钉,bias就是模擬細(xì)胞激活閾值。
Sigmoid神經(jīng)元
假設(shè)我們已經(jīng)搭建了一個(gè)神經(jīng)網(wǎng)絡(luò)了篱昔,并給它指派一個(gè)任務(wù): 扔給它多張手寫(xiě)數(shù)字圖片的像素?cái)?shù)據(jù)將十個(gè)不同的數(shù)字正確分類每强,希望它能通過(guò)學(xué)習(xí)來(lái)找到問(wèn)題的解決方案始腾。為了達(dá)成目標(biāo),機(jī)器學(xué)習(xí)的思路就是敏捷開(kāi)發(fā)的理念空执,小步優(yōu)化浪箭,快速迭代,它需要不斷調(diào)整weight和bias來(lái)逐步逼近預(yù)期的輸出值辨绊,而且必須保證weight和bias的微小變化也只會(huì)帶來(lái)輸出值的微小變化奶栖,否則機(jī)器就無(wú)法判斷應(yīng)該朝哪個(gè)方向去調(diào)整參數(shù)了。
感知機(jī)滿足這些要求是有難度的门坷,參數(shù)的微小調(diào)整可能會(huì)帶來(lái)輸出的質(zhì)變宣鄙,因?yàn)楦兄獧C(jī)的輸出只有0和1兩種結(jié)果。為了解決這個(gè)問(wèn)題默蚌,另一種神經(jīng)元Sigmoid出現(xiàn)了冻晤,它和感知機(jī)差別很小,就是輸出值不再僅限0和1绸吸,可以是0到1之間的任何小數(shù)鼻弧,比如0.342, 0.685,...
神經(jīng)元從感知機(jī)的階梯函數(shù)(左)變成了Simoid的線性函數(shù)(右),滿足了輸入值X軸微小變化僅帶來(lái)輸出值Y軸的微小變化锦茁。
我們用σ來(lái)表示Sigmoid函數(shù)σ(w?x+b)攘轩,當(dāng)z為正無(wú)窮大時(shí)σ無(wú)限逼近1,當(dāng)z為負(fù)無(wú)窮大時(shí)σ無(wú)限逼近0.
為了看的更清楚可以把這個(gè)公式右邊展開(kāi)如下:
Reference:
1. How many computers to identify a cat? 16000 - by John Markoff
2. Motion perception in autism spectrum disorder - researchgate.net
3. Clever Algorithms: Nature-Inspired Programming Recipes - by Jason Brownlee PhD
4. Neural networks and deep learning - by Ronald Davis