這周和上周的作業(yè)一樣焦影,數(shù)據(jù)集還是5000個 20x20 像素的手寫字母鳞绕,這周會用到反向傳播的算法饥努。一共5段需要提交的代碼,如果上周的內(nèi)容弄清楚了颗胡,跟著教程的話作業(yè)是不太難的(雖然課程視頻內(nèi)容很燒腦)毫深。
- Feedforward and cost function 30
- Regularized cost function 15
- Sigmoid gradient 5
- Neural net gradient function (backpropagation) 40
- Regularized gradient 10
Feedforward and cost function
因為多元分類的神經(jīng)網(wǎng)絡(luò)中 y 是一個橫向的向量,包含了從0到9的標簽毒姨。但是如果我們要訓練一個神經(jīng)網(wǎng)絡(luò)哑蔫,需要將 y 轉(zhuǎn)化為一個只有0和1的矩陣。例如 x1 的標簽為5弧呐,那 y 的第一行只有第五個元素是1鸳址,其他都是0. 我們可以用一個 for loop 完成(可能還有我不知道的更簡潔的方法)。
Y = zeros(m,num_labels);
for i = 1:m
Y(i, y(i)) = 1;
end
接著就是構(gòu)建我們的神經(jīng)網(wǎng)絡(luò)模型了泉懦,和上周的內(nèi)容差不多。只不過因為神經(jīng)網(wǎng)絡(luò)的公式不同疹瘦,我們需要多加一個sum. 這個公式不難理解崩哩,代價函數(shù)求的是預(yù)測值和實際結(jié)果的平方差,
神經(jīng)網(wǎng)絡(luò)的正則化有些復(fù)雜,乍一看一個Σ套一個Σ邓嘹,不過在 matlab 里寫的時候就是一個sum套一個sum, 注意括號和公式就可以了(如果結(jié)果不對多半是公式寫錯了哈哈)酣栈。
對于前半部分這兩個Σ, K 為該神經(jīng)網(wǎng)絡(luò)輸出層的標簽數(shù)(本作用中為10),m 為樣本數(shù)汹押,我們先把一個樣本的10個標簽的代價求和矿筝,再將 m 個樣本的代價求和。
作業(yè)提示強調(diào)不要把 bias 算進去棚贾,之前在邏輯回歸里是沒有算 theta 的第一個元素窖维,這里是跳過 Theta1 和 Theta2 的第一列。
% add bias
a1 = [ones(m,1) X];
% hidden layer
z2 = a1 * Theta1';
% add bias
a2 = [ones(m,1) sigmoid(z2)];
z3 = a2 * Theta2';
a3 = sigmoid(z3);
cost = 1/m * sum(sum(-Y .* log(a3) - (1-Y) .* log(1-a3)));
% skip 1st column of Theta1 and Theta2
regCost = lambda/(2*m) * (sum(sum(Theta1(:,2:end) .^ 2))+ sum(sum(Theta2(:, 2:end) .^ 2)));
J = cost + regCost;
Sigmoid gradient
這個比較簡單妙痹。我犯的一個錯誤是用了 * . 雖然在主函數(shù)里得到了正確的結(jié)果0.25铸史,但是提交的時候出現(xiàn)了問題。所以提交前用 test code 測試一下會比較好(這些 test code 真的很有用)怯伊。這里應(yīng)該用 .* 因為是矩陣元素相乘琳轿。
g = sigmoid(z) .* (1-sigmoid(z));
Backpropogation Algorithm
作業(yè)里的 checkNNGradients.m 是一段單獨的程序,里面的Theta1, Theta2 和之前的不一樣耿芹,專門用來檢測偏導數(shù)計算是否正確崭篡。其實怎么寫公式里面都有,但是......
但是我在電腦前坐了2個多小時一直在寫這段代碼0娠酢(可能是自己智商比較捉急吧...)因為矩陣的 size 總是傻傻分不清琉闪,就不停在報錯說 Matrix dimensions must agree...
我的代碼有點冗余...
% ==== Part 2 ====
Delta1 = zeros(size(Theta1));
Delta2 = zeros(size(Theta2));
for i=1:m
a_1 = X(i,:)';
% add bias
a_1 = [1; a_1];
% hidden layer
z_2 = a_1' * Theta1';
a_2 = sigmoid(z_2);
% add bias
a_2 = [1; a_2'];
% output layer
z_3 = a_2' * Theta2';
a_3 = sigmoid(z_3);
% compute the error
delta_3 = a_3 - Y(i, :);
% compute error on the second layer
tmp = (Theta2' * delta_3')';
delta_2 = tmp(2:end).* sigmoidGradient(z_2);
Delta2 = Delta2 + delta_3' * a_2';
Delta1 = Delta1 + delta_2' * a_1';
end
Theta1_grad = 1/m * Delta1;
Theta2_grad = 1/m * Delta2;
寫完后執(zhí)行一下 checkNNGradients
, 可以看到偏導數(shù)確實很相近:
Regularized Neural Networks
最后這步也是比較簡單的,注意點就是不要把 bias 算進去寇甸。 Theta1 和 Theta2 是兩個矩陣塘偎,這里也是無視他們的第一列。我盡量寫得短一點拿霉。
% ==== Part 3 ====
% regularize Theta1_grad
Theta1_grad(:,2:end) = Theta1_grad(:,2:end) + lambda / m * Theta1(:, 2:end);
% regualize Theta2_grad
Theta2_grad(:,2:end) = Theta2_grad(:,2:end) + lambda / m * Theta2(:, 2:end);
Learning parameters
到這里就完成作業(yè)啦吟秩!運行下面的代碼用 fmincg 返回 Theta 值,可以看到正確率大概為95.68%!
options = optimset('MaxIter', 50);
lambda = 1;
% Create "short hand" for the cost function to be minimized
costFunction = @(p) nnCostFunction(p, input_layer_size, hidden_layer_size, num_labels, X, y, lambda);
% Now, costFunction is a function that takes in only one argument (the
% neural network parameters)
[nn_params, ~] = fmincg(costFunction, initial_nn_params, options);
% Obtain Theta1 and Theta2 back from nn_params
Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), hidden_layer_size, (input_layer_size + 1));
Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end), num_labels, (hidden_layer_size + 1));
pred = predict(Theta1, Theta2, X);
fprintf('\nTraining Set Accuracy: %f\n', mean(double(pred == y)) * 100);
還有最后的顯示隱藏層也很有趣呢绽淘!