第四周的主要內(nèi)容是神經(jīng)網(wǎng)絡(luò)囊陡,個人覺得講得比較跳开皿,所以補充幾篇文章加深一下理解:
神經(jīng)網(wǎng)絡(luò)淺講:從神經(jīng)元到深度學(xué)習(xí)
【機(jī)器學(xué)習(xí)】神經(jīng)網(wǎng)絡(luò)實現(xiàn)異或(XOR)
這里還有一個特別棒的YouTube視頻珠洗,加上動畫特別有助于理解抽象的矩陣:
But what is a Neural Network? | Deep learning, chapter 1
先提一下或渤,
- 本人設(shè)計背景感猛,沒學(xué)過微積分矩父,這篇只當(dāng)是筆記铣卡,有不準(zhǔn)確或不足之處請大家在下方評論。
- 本文是步驟分析偏竟,所以會把答案寫出來,還沒有做作業(yè)的請繞道敞峭。
ex3 的作業(yè)的訓(xùn)練集5000個20 x 20-pixel 的手寫數(shù)字踊谋。我們將數(shù)據(jù)加載:
% Load saved matrices from file
load('ex3data1.mat');
% The matrices X and y will now be in your MATLAB environment
我們可以看到 X 是5000 x 400 的一個矩陣,每一行是一個數(shù)字每像素的灰度值旋讹。
這周的作業(yè)內(nèi)容為四個function殖蚕,完成后就可以識別上圖的手寫數(shù)字啦
- Regularized logistic regression - 30
- One-vs-all classifier training - 20
- One-vs-all classifier prediction - 20
- Neural network prediction function - 30
lrCostFunction
第一個lrCostFunction.m 文件看著無比眼熟,沒錯這個和上周的costfunctionReg.m 應(yīng)該是一模一樣的沉迹。只不過 ex3 要求用向量化也就是矩陣表達(dá)睦疫。這個課程默認(rèn)是 ex2 用loop, ex3 用向量。如果 ex2 就使用了向量鞭呕,那 ex3 的第一個作業(yè)就很輕松了(很郁悶為什么不早點給向量化的解釋蛤育,ex2 就省得我自己算那么久了)。
上面代價函數(shù)的向量化很好理解葫松,主要是 vectorize the gradient 關(guān)于 X 的轉(zhuǎn)置有點繞人瓦糕。
邏輯回歸正則化就是根據(jù)公式在后面加上 lambda blabla... 不過求偏導(dǎo)數(shù)的時候要注意theta0 不需要正則化,所以要單獨拿出來腋么。
h = sigmoid(X * theta)
cost = 1/m * sum(-y .* log(h) - (1-y) .* log(1-h)); % 這里是 .* 而非 * 是因為將矩陣?yán)锩總€元素相乘而非矩陣相乘
regCost = lambda / (2*m) * sum(theta(2:end) .^ 2) % 排除theta(1)
J = cost + regCost;
grad = 1/m * X' * (h - y) % 偏導(dǎo)數(shù)向量化看 Vectorize the gradient 那張圖
temp = lamba / m * theta;
temp(1) = 0;
grad = grad + temp;
One-vs-all
在第四周的視頻里咕娄,我們了解到One vs all 的基本概念就是把多個分類轉(zhuǎn)化為二元分類的問題。比如第一個判斷是不是0珊擂,第二個判斷是不是1... OneVsAll 函數(shù)就是求10個類的參數(shù)θ值圣勒。
這里我們要用到 fmincg 函數(shù),和上一個練習(xí)的 fminuc 差不多摧扇,可以返回代價函數(shù)最小化的參數(shù)θ和相對應(yīng)的cost. fmincg 更適合參數(shù)較多的情況圣贸。
% Set initial theta
initial_theta = zeros(n + 1, 1);
% Set options for fmincg 按照示例寫就行
% 這里用梯度下降法,最大迭代次數(shù)50次
options = optimset('GradObj', 'on', 'MaxIter', 50);
for c = 1: num_labels
% Run fmincg to obtain the optimal theta
all_theta(c,:) = fmincg(@(t)(lrCostFunction(t, X, (y == c), lambda)), initial_theta, options);
end
在ex3.mlx 里設(shè)置一下 label 數(shù)量和 lambda 值
num_labels = 10; % 10 labels, from 1 to 10
lambda = 0.1;
[all_theta] = oneVsAll(X, y, num_labels, lambda);
all_theta 是一個 10x401的矩陣扳剿,每行是每個類(本練習(xí)是0, 1, 2, 3 .... 9)的theta值旁趟。
Predict OneVsAll
有了這一堆 theta 值,我們就有了訓(xùn)練好的分類器庇绽,接下來可以預(yù)測一個圖片是什么數(shù)字了锡搜。我們可以先算出該圖片為0, 1, 2, 3 ... 的概率,概率最大的即判斷為這個數(shù)瞧掺。
這里用sigmoid(X * all_theta') 計算概率耕餐。X是一個5000x401的矩陣,all_theta' 是一個401x10的矩陣辟狈,相乘后為5000x10的矩陣肠缔,每行是這個圖分別為1, 2, 3, 4, .... 0 的概率夏跷。我們?nèi)∶啃械淖畲笾挡⑴袛嗥錇樵擃悇e。
我自己腦子不太轉(zhuǎn)得過來明未,先看看 X * all_theta 的結(jié)果:
B = [ones(m, 1) X] * all_theta;
B(1:4, :) % 提取前4行的結(jié)果
再看看加了sigmoid
C = sigmoid([ones(m, 1) X] * all_theta);
C(1:4, :) % 提取前4行的結(jié)果
作業(yè)提示可以用 max 函數(shù)返回最大值槽华。如果 A 是一個向量,max(A) 返回A中最大元素趟妥,如果 A 是矩陣猫态,max(A) 會將每一列作為一個向量,返回一個行向量披摄,該向量的第 i 個元素是矩陣A 第 i 列上的最大值(參考:matlab 中max函數(shù)用法)亲雪。
Predict OneVsAll 的代碼只有短短幾行:
function p = predictOneVsAll(all_theta, X)
m = size(X, 1);
num_labels = size(all_theta, 1);
% p是需要返回的結(jié)果
p = zeros(size(X, 1), 1);
% 在X前加一列1
X = [ones(m, 1) X];
[x, p] = max(sigmoid(X * all_theta'), [], 2);
這里p返回的是行號也就是類。
測試一下準(zhǔn)確率疚膊,為95.04000.
pred = predictOneVsAll(all_theta, X);
fprintf('\nTraining Set Accuracy: %f\n', mean(double(pred == y)) * 100);
Predict
下一個部分就是將剛剛學(xué)到的多元分類運用到神經(jīng)網(wǎng)絡(luò)中啦义辕!最后一個其實不難,主要工作是建立一個三層的神經(jīng)網(wǎng)絡(luò)寓盗。而且作業(yè)里已經(jīng)有了Theta1 和 Theta2, 分別是 25x401 和 10 x 26 的矩陣(Theta矩陣的大小為 s(j+1) x s(j) + 1)灌砖。先回顧一下模型:
a1就是在 X 前加一列1,a2 為用Theta1計算出的第二層的值贞让。
a1 = [ones(m, 1) X]; % 輸入層
a2 = [ones(m,1) sigmoid(a1 * Theta1')]; % 隱藏層
[x, p] = max(sigmoid(a2 * Theta2'), [], 2); % 輸出層
在 main 函數(shù)里看一下準(zhǔn)確率大概是97.5%.
pred = predict(Theta1, Theta2, X);
fprintf('\nTraining Set Accuracy: %f\n', mean(double(pred == y)) * 100);
最后一段可以隨機(jī)挑選某個digit 進(jìn)行預(yù)測周崭,非常有趣