1庐舟、實(shí)際變量有多少個(gè)特征,輸入層就有多少個(gè)神經(jīng)元兔朦,接下來(lái)想要得到多少個(gè)值那么隱藏層就有個(gè)神經(jīng)元偷线,以此類推
2、神經(jīng)網(wǎng)絡(luò)是一個(gè)無(wú)監(jiān)督學(xué)習(xí)的過(guò)程么沽甥? 但是最后也算是和訓(xùn)練數(shù)據(jù)中的y做對(duì)比的啊声邦,對(duì)無(wú)監(jiān)督這個(gè)過(guò)程感到不理解
額,大概是這個(gè)過(guò)程摆舟,訓(xùn)練數(shù)據(jù)區(qū)別于標(biāo)簽數(shù)據(jù)翔忽,模型都需要訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練,但是標(biāo)簽數(shù)據(jù)就是做監(jiān)督分類來(lái)用的
整個(gè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率是一樣的嗎盏檐,還是每層的一樣
3、求導(dǎo)的數(shù)值化表示
神經(jīng)網(wǎng)絡(luò)的輸入是一個(gè)矩陣驶悟,比如課程中講到的識(shí)別數(shù)字的訓(xùn)練集胡野,輸入值是5000x400的矩陣,5000代表樣本數(shù)量痕鳍,400是輸入層的特征值數(shù)量硫豆;輸出值是一個(gè)500x1的矩陣
4、對(duì)于有多個(gè)參數(shù)theta的情況笼呆,可以看做是多維空間中熊响,theta1、theta2诗赌、theta3......等是每一維汗茄,J值是對(duì)應(yīng)的值,那么相應(yīng)地每一維上的梯度或者叫導(dǎo)數(shù)(能叫做導(dǎo)數(shù)吧铭若?:樘肌)
5、上述的數(shù)值表達(dá)式用matlab或者octave代碼表述如下:
6叼屠、在神經(jīng)網(wǎng)絡(luò)中獲得梯度是利用方向傳播方法得到的誤差瞳腌,因?yàn)楦鶕?jù)訓(xùn)練集,(xi 镜雨、yi)中嫂侍,xi對(duì)應(yīng)于神經(jīng)網(wǎng)絡(luò)的初始輸入值,yi對(duì)應(yīng)于輸出值荚坞,誤差函數(shù)或代價(jià)函數(shù) J 的獲取是在最后一層即輸出層進(jìn)行的挑宠。而各層中間的theta值是靠誤差方向傳播計(jì)算得到。
7西剥、利用數(shù)值計(jì)算梯度實(shí)驗(yàn)梯度精度檢驗(yàn)
why?!原因如下:
所以要用反向傳播算法來(lái)計(jì)算D(1)痹栖、D(2)、D(3)
但是以上說(shuō)法是建立在已經(jīng)檢驗(yàn)過(guò)反向傳播算法和數(shù)值檢驗(yàn)結(jié)果相差不大的條件下瞭空。
8揪阿、當(dāng)運(yùn)算梯度下降法或者高級(jí)算法時(shí)需要初始化theta值
在邏輯回歸中所有theta值初始化為0是可行的疗我,但是在神經(jīng)網(wǎng)絡(luò)中時(shí)不可行的
如果所有參數(shù)theta的初始值都為0,那么下圖中所有藍(lán)色的兩個(gè)權(quán)重南捂、紅色的兩個(gè)權(quán)重吴裤、綠色的兩個(gè)權(quán)重將會(huì)一直相等。隱藏層的所有特征值也將相等溺健,那么在計(jì)算下一層的輸出值時(shí)這些其他相等的特征值完全是多余的或者沒(méi)有意義的麦牺。
解決以上問(wèn)題的方法就是將theta值隨機(jī)初始化
圖中紅框中的在matlab中的實(shí)現(xiàn)的代碼可以使得theta值在[-epsilon,epsilon]之間
下圖說(shuō)明初始化theta值時(shí)要打破對(duì)稱性,不管是把所有theta值初始化為0還是初始化為不為零的值都沒(méi)有做到這一點(diǎn)
9鞭缭、神經(jīng)網(wǎng)絡(luò)的輸入層神經(jīng)元個(gè)數(shù)和特征個(gè)數(shù)相等剖膳,輸出層神經(jīng)元和分幾類相等。
10岭辣、隱藏層數(shù)量以及隱藏層神經(jīng)元個(gè)數(shù)的確定:一般情況下只要一個(gè)隱藏層吱晒,若隱藏層數(shù)量大于1,那么盡量使得每個(gè)隱藏層中的神經(jīng)元個(gè)數(shù)相等沦童,而且是數(shù)目越多效果越好仑濒,但是計(jì)算量會(huì)很大
11、會(huì)對(duì)每一個(gè)樣本進(jìn)行前向傳播和反向傳播
12偷遗、所有的theta參數(shù)表達(dá)神經(jīng)網(wǎng)絡(luò)如何有效擬合訓(xùn)練數(shù)據(jù)
總結(jié)暫時(shí)的理解:
(1) 墩瞳、&(3) =[s1;s2] a(2) = [e1;e2;e3;e4;e5;e6;e7;e8;e9;e10]
所以梯度等于&(3)*a(2)'
下圖中第二個(gè)選項(xiàng)是錯(cuò)誤的,因?yàn)閘amda的值不能不限地增加
(結(jié)果顯示答案錯(cuò)誤氏豌,why)
二次新知:
1喉酌、
實(shí)際是代價(jià)函數(shù)關(guān)于z(i)j的偏微分
什么時(shí)候去掉梯度檢驗(yàn)的代碼
神經(jīng)網(wǎng)絡(luò)是非凸函數(shù),一般如何解決局部最優(yōu)解的問(wèn)題,a
總結(jié):要記住
除了是相應(yīng)代價(jià)函數(shù)關(guān)于中間項(xiàng)的偏導(dǎo)數(shù)箩溃,也可以由下式得到瞭吃。
2、紅框中是計(jì)算一個(gè)實(shí)例中的梯度中的偏導(dǎo)數(shù)項(xiàng)
下圖中的第一個(gè)紅框中的內(nèi)容是計(jì)算梯度的累計(jì)值涣旨、第二個(gè)紅框是計(jì)算梯度(當(dāng)他theta是第一項(xiàng)時(shí)不要lambda,否則相反)