線性分類器是帶參數(shù)的分類器,數(shù)學(xué)表達(dá)式:f(x,W, b) = Wx + b淘太,其中W為權(quán)重向量,x為圖像的像素值構(gòu)成的向量规丽,b為偏差向量蒲牧。
以cifar-10中的圖像為例,每張圖都是32*32*3的像素矩陣構(gòu)成的嘁捷,把這個三維矩陣?yán)斐梢粋€3072*1的向量造成,cifar-10數(shù)據(jù)集中有10個標(biāo)簽類,最后得出的結(jié)果f應(yīng)當(dāng)為輸入圖像屬于這個10個類別的分值score構(gòu)成的向量雄嚣,如下圖所示:
簡化后的例子:
屬于cat的分值為負(fù)喘蟆,不是最大,說明該分類器的分類效果不好鼓鲁,需要對W做調(diào)整蕴轨。W其實(shí)是10個分類器并行構(gòu)成的權(quán)重向量,每一行代表一個分類器的權(quán)重骇吭。
對線性分類器的幾種理解
將圖像看做高維度的點(diǎn):既然圖像被伸展成為了一個高維度的列向量橙弱,那么我們可以把圖像看做這個高維度空間中的一個點(diǎn)(即每張圖像是3072維空間中的一個點(diǎn))。整個數(shù)據(jù)集就是一個點(diǎn)的集合燥狰,每個點(diǎn)都帶有1個分類標(biāo)簽棘脐。(知乎專欄·智能單元)
將線性分類器看做模板匹配:關(guān)于權(quán)重W的另一個解釋是它的每一行對應(yīng)著一個分類的模板(有時候也叫作原型)目代。一張圖像對應(yīng)不同分類的得分屈梁,是通過使用內(nèi)積(也叫點(diǎn)積)來比較圖像和模板,然后找到和哪個模板最相似榛了。從這個角度來看在讶,線性分類器就是在利用學(xué)習(xí)到的模板,針對圖像做模板匹配霜大。(來源同上)
將W的每一行值reshape還原成與原圖像大小相同的矩陣构哺,此處為32*32*3,再可視化后僧诚,得到上圖的10個模板遮婶。如上圖所示,ship的模板可視化后湖笨,藍(lán)色偏多,那么該模板與測試數(shù)據(jù)里有藍(lán)色背景的圖像做內(nèi)積蹦骑,使得對應(yīng)藍(lán)色區(qū)域值更大慈省。模板里horse有兩個頭,對應(yīng)的是馬頭朝向左右兩邊的情形眠菇。
線性分類器對于不同顏色的車的分類能力是很弱的边败,但是后面可以看到神經(jīng)網(wǎng)絡(luò)是可以完成這一任務(wù)的。神經(jīng)網(wǎng)絡(luò)可以在它的隱藏層中實(shí)現(xiàn)中間神經(jīng)元來探測不同種類的車(比如綠色車頭向左捎废,藍(lán)色車頭向前等)笑窜。而下一層的神經(jīng)元通過計算不同的汽車探測器的權(quán)重和,將這些合并為一個更精確的汽車分類分值登疗。(來源同上)
下一節(jié)內(nèi)容:
損失函數(shù)Loss function(用于量化W是否合適的函數(shù))
優(yōu)化 Optimization (先初始化一個隨機(jī)的W排截,再尋找使loss function最小的W)