Softmax分類器可以理解為邏輯回歸分類器面對(duì)多個(gè)分類的一般化歸納碑定。公式:
SVM和Softmax的比較:
??針對(duì)一個(gè)數(shù)據(jù)點(diǎn)阅爽,SVM和Softmax分類器的不同處理方式的例子。兩個(gè)分類器都計(jì)算了同樣的分值向量f(通過矩陣乘來實(shí)現(xiàn))。不同之處在于對(duì)f中分值的解釋:SVM分類器將它們看作是分類評(píng)分钥飞,它的損失函數(shù)鼓勵(lì)正確的分類(本例中是藍(lán)色的類別2)的分值比其他分類的分值高出至少一個(gè)邊界。Softmax分類器將這些數(shù)值看做是每個(gè)分類沒有歸一化的對(duì)數(shù)概率衫嵌,鼓勵(lì)正確分類的歸一化的對(duì)數(shù)概率變高读宙,其余變低。SVM的最終損失值是1.58渐扮,Softmax的最終損失值是0.452论悴,但要注意這兩個(gè)數(shù)值沒有可比性。只在給定同樣數(shù)據(jù)墓律,在同樣的分類器的損失值計(jì)算中膀估,他們才有意義。
??Softmax分類器為每個(gè)分類提供了“可能性”:SVM的計(jì)算是無標(biāo)定的耻讽。而且難以針對(duì)所有分類的評(píng)分值給出直觀解釋察纯。Softmax分類器則不同,它允許我們計(jì)算出對(duì)于所有分類標(biāo)簽的可能性针肥。舉個(gè)例子饼记,針對(duì)給出的圖像,SVM分類器可能給你的是一個(gè)[12.5, 0.6, -23.0]對(duì)應(yīng)分類“貓”慰枕,“狗”具则,“船”。而softmax分類器可以計(jì)算出這三個(gè)標(biāo)簽的”可能性“是[0.9, 0.09, 0.01]具帮,這就讓你能看出對(duì)于不同分類準(zhǔn)確性的把握博肋。為什么我們要在”可能性“上面打引號(hào)呢低斋?這是因?yàn)榭赡苄苑植嫉募谢螂x散程度是由正則化參數(shù)λ直接決定的,λ是你能直接控制的一個(gè)輸入?yún)?shù)匪凡。
??在實(shí)際使用中膊畴,SVM和Softmax經(jīng)常是相似的:通常說來,兩種分類器的表現(xiàn)差別很小病游,不同的人對(duì)于哪個(gè)分類器更好有不同的看法唇跨。相對(duì)于Softmax分類器,SVM更加“局部目標(biāo)化(local objective)”衬衬,這既可以看做是一個(gè)特性买猖,也可以看做是一個(gè)劣勢(shì)∮赌停考慮一個(gè)評(píng)分是[10, -2, 3]的數(shù)據(jù)政勃,其中第一個(gè)分類是正確的。那么一個(gè)SVM(? = 1)會(huì)看到正確分類相較于不正確分類兼砖,已經(jīng)得到了比邊界值還要高的分?jǐn)?shù)奸远,它就會(huì)認(rèn)為損失值是0。SVM對(duì)于數(shù)字個(gè)體的細(xì)節(jié)是不關(guān)心的:如果分?jǐn)?shù)是[10, -100, -100]或者[10, 9, 9]讽挟,對(duì)于SVM來說沒設(shè)么不同懒叛,只要滿足超過邊界值等于1,那么損失值就等于0耽梅。
??對(duì)于softmax分類器薛窥,情況則不同。對(duì)于[10, 9, 9]來說眼姐,計(jì)算出的損失值就遠(yuǎn)遠(yuǎn)高于[10, -100, -100]的诅迷。換句話來說,softmax分類器對(duì)于分?jǐn)?shù)是永遠(yuǎn)不會(huì)滿意的:正確分類總能得到更高的可能性众旗,錯(cuò)誤分類總能得到更低的可能性罢杉,損失值總是能夠更小。但是贡歧,SVM只要邊界值被滿足了就滿意了滩租,不會(huì)超過限制去細(xì)微地操作具體分?jǐn)?shù)。這可以被看做是SVM的一種特性利朵。舉例說來律想,一個(gè)汽車的分類器應(yīng)該把他的大量精力放在如何分辨小轎車和大卡車上,而不應(yīng)該糾結(jié)于如何與青蛙進(jìn)行區(qū)分绍弟,因?yàn)閰^(qū)分青蛙得到的評(píng)分已經(jīng)足夠低了技即。