前言
在coursera上久負盛名的課程《機器學習》越妈,不僅Andrew Ng老師講課思路清晰亭螟,并且有很多網(wǎng)友的整理的優(yōu)秀筆記小渊。聽完老師的課收獲頗多起暮,通過編程作業(yè)對算法有了更深刻的理解铺罢。正如老師所說艇挨,檢驗一個算法有效性的平臺通常是容易實現(xiàn),語言簡單的韭赘,例如MATLAB缩滨。之后可以根據(jù)自己的需求移植到C、C++泉瞻、Java平臺上脉漏。神經(jīng)網(wǎng)絡這一章算法復雜度較線性回歸、邏輯回歸有所提高袖牙,做編程作業(yè)的難度也有加大侧巨,所以記錄下自己編程過程中意識到的問題,以備查看鞭达。
訓練神經(jīng)網(wǎng)絡的過程:
1.隨機初始化接近于0的權(quán)值theta司忱。
2.執(zhí)行前向傳播算法,對于有m個輸入樣本的x畴蹭,每個x得到一個輸出坦仍。
3.通過代碼計算代價函數(shù)。
4.用反向傳播算法計算代價函數(shù)的偏導撮胧。
5.應用梯度檢查法桨踪,將數(shù)值計算出的偏導數(shù)與反向傳播偏導數(shù)作比較,保證正確應用了反向傳播算法芹啥。檢驗完成后去掉梯度檢查代碼锻离,因為會給程序帶來額外的代價铺峭。
6.用梯度下降或者其他更高級的優(yōu)化算法來達到代價函數(shù)的最小取值,從而得到分類函數(shù)汽纠。
結(jié)合代碼看公式
本程序利用神經(jīng)網(wǎng)絡對手寫數(shù)字進行識別卫键,假設有一個三層的神經(jīng)網(wǎng)絡,其中輸入層單元個數(shù)為400虱朵,隱藏層單元個數(shù)為25莉炉,輸出層單元個數(shù)為10。從而可以得到theta1為25X401的矩陣碴犬,theta2為10X26的矩陣絮宁。
由于MATLAB中的代價函數(shù)為了輸入方便,將theta1服协、theta2展開成了一個向量绍昂,所以需要一步轉(zhuǎn)換過程,重新恢復原值偿荷。
Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), hidden_layer_size, (input_layer_size + 1)); Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end), num_labels, (hidden_layer_size + 1)); //注意矩陣維數(shù)對應關(guān)系
對輸出y進行預處理
樣本中y存儲的是一個數(shù)字窘游,即本圖中顯示的數(shù)字。但是神經(jīng)網(wǎng)絡的輸出層確實一個10維的列向量跳纳,對應下標數(shù)為1即表示顯示該數(shù)字忍饰。所以要進行由數(shù)字到向量的預處理。
Y = []; E = eye(num_labels); for i = 1:num_labels Y0 = find(y==i); Y(Y0,:) = repmat(E(i,:),size(Y0,1),1); end
計算代價函數(shù) J寺庄,直接利用矩陣的計算完成m個樣本的代價函數(shù)艾蓝,避免了循環(huán)迭代。注意每次都要補一列全1的偏差項铣揉。
X = [ones(m,1) X]; a2 = sigmoid(X * Theta1'); a2 = [ones(m,1) a2]; a3 = sigmoid(a2 * Theta2'); temp1 = [zeros(size(Theta1,1),1) Theta1(:,2:end)]; temp2 = [zeros(size(Theta2,1),1) Theta2(:,2:end)]; temp1 = sum(temp1.^2); temp2 = sum(temp2.^2); cost = Y .* log(a3) + (1 - Y) .* log(1 - a3); J = -1 / m * sum(cost(:)) + lambda/(2*m) * (sum(temp1) + sum(temp2));
- 計算梯度饶深。
delta_1 = zeros(size(Theta1)); delta_2 = zeros(size(Theta2)); for t = 1:m a_1 = X(t,:)'; %step1,此處不用補1逛拱,因為在X中已經(jīng)執(zhí)行過這一步了 z_2 = Theta1 * a_1; a_2 = sigmoid(z_2); a_2 = [1;a_2]; z_3 = Theta2 * a_2; a_3 = sigmoid(z_3); err_3 = zeros(num_labels,1); for k = 1 : num_labels %step2 err_3(k) = a_3(k) - (y(t)==k); end err_2 = Theta2' * err_3; %step3 err_2 = err_2(2:end) .* sigmoidGradient(z_2); //特別注意矩陣維度一定要符合敌厘,因此去掉第一個值 delta_2 = delta_2 + err_3 * a_2'; %step4 delta_1 = delta_1 + err_2 * a_1'; end Theta1_temp = [zeros(size(Theta1,1),1) Theta1(:,2:end)]; %step5 Theta2_temp = [zeros(size(Theta2,1),1) Theta2(:,2:end)]; Theta1_grad = 1/m * delta_1 + lambda/m * Theta1_temp; //正則化不影響Theta的第一列 Theta2_grad = 1/m * delta_2 + lambda/m * Theta2_temp;
小結(jié)
神經(jīng)網(wǎng)絡反向傳播的算法精髓到此就告一段落了,與其配合使用的梯度檢查和最優(yōu)化函數(shù)也十分重要朽合,在此不詳述俱两。通過最小化代價函數(shù)得到最優(yōu)的Theta值,從而得到預測準確率最高的輸出曹步,達到正確識別手寫數(shù)字的目的宪彩。
PS:今天無意中發(fā)現(xiàn)了Andrew老師的老婆也是斯坦福機器學習實驗室的,兩人為實驗室招募拍了一組照片讲婚,瞬間感覺這才是科研的最高境界尿孔。附上恩愛照一張: