為什么要引入神經(jīng)網(wǎng)絡(luò)呢捡硅?
隨著特征個(gè)數(shù)n的增加二次項(xiàng)的個(gè)數(shù)大約以n^2的量級(jí)增長(zhǎng), 其中n是原始項(xiàng)的個(gè)數(shù)即我們之前說(shuō)過(guò)的x1到x100這些項(xiàng)事實(shí)上二次項(xiàng)的個(gè)數(shù)大約是(n^2)/2良蛮。因此要包含所有的二次項(xiàng)是很困難的剩膘,所以這可能 不是一個(gè)好的做法屁药;而且由于項(xiàng)數(shù)過(guò)多,最后的結(jié)果很有可能是過(guò)擬合的鹤盒。此外懒豹,在處理這么多項(xiàng)時(shí)也存在運(yùn)算量過(guò)大的問(wèn)題。這個(gè)就是我們即將講非線(xiàn)性分類(lèi)器滔以。
然而捉腥,在應(yīng)用中,有的時(shí)候Non-linear hypotheses往往有更多的特征你画。舉個(gè)例子抵碟,假設(shè)你想要使用機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練一個(gè)分類(lèi)器使它檢測(cè)一個(gè)圖像來(lái)判斷圖像是否為一輛汽車(chē)。取出汽車(chē)門(mén)把手圖片中的一小部分將其放大表明當(dāng)人眼看到一輛汽車(chē)時(shí)坏匪,計(jì)算機(jī)實(shí)際上看到的卻是這個(gè)一個(gè)數(shù)據(jù)矩陣或像這種格網(wǎng)它們表示了像素強(qiáng)度值告訴我們圖像中每個(gè)像素的亮度值拟逮。
這個(gè)分類(lèi)問(wèn)題中特征空間的維數(shù)是多少?假設(shè)我們用50*50像素的圖片我們的圖片已經(jīng)很小了長(zhǎng)寬只各有50個(gè)像素但這依然是2500個(gè)像素點(diǎn)适滓。因此我們的特征向量的元素?cái)?shù)量N=2500敦迄。因此 如果我們非要通過(guò)包含所有的二次項(xiàng)來(lái)解決這個(gè)非線(xiàn)性問(wèn)題那么這就是式子中的所有條件XixXj連同開(kāi)始的2500像素總共大約有300萬(wàn)個(gè)。這數(shù)字大得有點(diǎn)離譜了對(duì)于每個(gè)樣本來(lái)說(shuō)要發(fā)現(xiàn)并表示所有這300萬(wàn)個(gè)項(xiàng)凭迹,這計(jì)算成本太高了罚屋。
這個(gè)時(shí)候就是神經(jīng)網(wǎng)絡(luò)用武之地了。
人腦神經(jīng)元
我們的大腦中充滿(mǎn)了 這樣的神經(jīng)元 神經(jīng)元是大腦中的細(xì)胞 其中有兩點(diǎn) 值得我們注意 一是神經(jīng)元有 像這樣的細(xì)胞主體 二是神經(jīng)元有 一定數(shù)量的 輸入神經(jīng) 這些輸入神經(jīng)叫做樹(shù)突 可以把它們想象成輸入電線(xiàn) 它們接收來(lái)自其他 神經(jīng)元的信息 神經(jīng)元的輸出神經(jīng)叫做軸突 這些輸出神經(jīng) 是用來(lái) 給其他神經(jīng)元傳遞信號(hào) 或者傳送信息的嗅绸。簡(jiǎn)而言之 神經(jīng)元是一個(gè)計(jì)算單元 它從輸入神經(jīng)接受一定數(shù)目的信息 并做一些計(jì)算脾猛,然后將結(jié)果通過(guò)它的 軸突傳送到其他節(jié)點(diǎn) 或者大腦中的其他神經(jīng)元 下面是一組神經(jīng)元的示意圖 神經(jīng)元利用微弱的電流 進(jìn)行溝通 這些弱電流也稱(chēng)作動(dòng)作電位 其實(shí)就是一些微弱的電流
如下圖,是一個(gè)神經(jīng)細(xì)胞鱼鸠,它有軸突(輸出)猛拴,樹(shù)突(輸入)羹铅,和胞體。
神經(jīng)元模型( Logistic unit)
人們仿照神經(jīng)元設(shè)計(jì)了神經(jīng)元模型( Logistic unit)愉昆。
這樣的logistic 模型可以組成多級(jí)的結(jié)構(gòu)职员,完成復(fù)雜的運(yùn)算。
那么神經(jīng)網(wǎng)絡(luò)的問(wèn)題就簡(jiǎn)單轉(zhuǎn)化為跛溉,如何通過(guò)輸入計(jì)算出h(x)焊切,即:
神經(jīng)網(wǎng)絡(luò)的術(shù)語(yǔ):
- 網(wǎng)絡(luò)中的第一層 也被稱(chēng)為輸入層 因?yàn)槲覀冊(cè)谶@一層 輸入我們的特征項(xiàng) x1 x2 x3
- 最后一層 也稱(chēng)為輸出層 因?yàn)檫@一層的 神經(jīng)元我指的這個(gè) 輸出 假設(shè)的最終計(jì)算結(jié)果
- 中間的兩層 也被稱(chēng)作隱藏層
- a上標(biāo)(j) 下標(biāo)i表示 第j層的 第i個(gè)神經(jīng)元或單元,如a上標(biāo)(2) 下標(biāo)1 表示第2層的第一個(gè)激勵(lì) 即隱藏層的第一個(gè)激勵(lì)
- 所謂激勵(lì)(activation) 是指 由一個(gè)具體神經(jīng)元讀入 計(jì)算并輸出的值
- 矩陣參數(shù)化 θ上標(biāo)(j)它將成為一個(gè)波矩陣控制著 從一層比如說(shuō)從第一層到第二層或者第二層到第三層的作用芳室。
- 如果一個(gè)網(wǎng)絡(luò)在第j 層有sj個(gè)單元, 在j+1層有sj+1個(gè)單元,那么矩陣θ(j) 即控制第j層到 第j+1層映射 的矩陣的 維度為s(j+1) * (s(j)+1)蛛蒙。即如下圖所示,θ上標(biāo)(j)如何發(fā)揮作用渤愁。
從輸入層的激勵(lì)開(kāi)始,然后進(jìn)行前向傳播給隱藏層并計(jì)算隱藏層的激勵(lì)深夯。然后抖格,我們繼續(xù)前向傳播并計(jì)算輸出層的激勵(lì)。這個(gè)從輸入層到隱藏層再到輸出層依次計(jì)算激勵(lì)的過(guò)程叫前向傳播咕晋。這里我們可以發(fā)現(xiàn)雹拄,其實(shí)神經(jīng)網(wǎng)絡(luò)就像是logistic regression,只不過(guò)我們把logistic regression中的輸入向量[x1x3]變成了中間層的[a(2)1a(2)3], 即
總結(jié)下神經(jīng)網(wǎng)絡(luò)的公式推算势篡,上圖可以簡(jiǎn)化為:
其中
如果把輸入和中間值表示為:
那么Z可表示為:
a可表示為:
h(x)可表示為: