更多文章芥永,歡迎大家關(guān)注的我的個(gè)人博客網(wǎng)站:fangd123
原文鏈接:SVM - Understanding the math - Part 2
在SVM教程的第一部分中赴叹,我們了解了SVM的目標(biāo)颗搂。它的目標(biāo)是是尋找最大化間隔的超平面。
但是我們?nèi)绾斡?jì)算這個(gè)邊距靴跛?
SVM = Support VECTOR Machine
在支持向量機(jī)中谦絮,有一個(gè)概念,叫做向量(vector)紧显。
這也就是說理解向量和如何使用它們是很重要的讲衫。
Here a short sum-up of what we will see today:
這是今天我們將要了解的內(nèi)容的摘要:
- 什么是向量?
- 它的范數(shù)
- 它的方向
- 向量加減法
- 什么是點(diǎn)乘
- 如何將一個(gè)向量投影到另一個(gè)向量上
什么是向量孵班?
如果我們定義點(diǎn) A(3,4)涉兽,我們能夠把它像這樣繪制出來。
[圖片上傳失敗...(image-8539da-1531014273702)]
圖 1:一個(gè)點(diǎn)
定義:點(diǎn) x=(x1,x2),x≠0 in R^2 確定平面的一個(gè)向量篙程,即向量的起點(diǎn)為原點(diǎn)枷畏,終點(diǎn)為點(diǎn)x。
這個(gè)定義的意思是在原點(diǎn)和點(diǎn)A存在一個(gè)向量虱饿。
[圖片上傳失敗...(image-ff292c-1531014273702)]
圖 2 - 一個(gè)向量
如果我們說原點(diǎn)坐標(biāo)為 O(0,0)拥诡,那么上邊的這條向量是 OA,我們也能夠給它一個(gè)抽象的名字例如u氮发。
注意:你可能注意到我們書寫的向量渴肉,要么是在字母頂端標(biāo)箭頭,要么加粗爽冕。在文章的接下來的部分我將會(huì)使用箭頭,在存在兩個(gè)字母像OA前塔,在其他情況下加粗標(biāo)識(shí)。
好华弓,目前我們向量的存在困乒,但是我們?nèi)匀徊恢朗裁词窍蛄俊?/p>
定義:向量是一個(gè)同時(shí)擁有大小和方向的東西。
我們將會(huì)從兩個(gè)方面來理解這個(gè)概念娜搂。
1)向量的大小
向量X的大小或者長(zhǎng)度被寫作 \| x \|,被稱范數(shù)考廉。
對(duì)于我們的向量OA携御,||OA||就是線段OA的長(zhǎng)度
[圖片上傳失敗...(image-780c9f-1531014273702)]
圖3
使用勾股定理能夠很容易地計(jì)算出圖3中OA的距離:
OA^2=OB^2+AB^2
OA^2=3^2+4^2
OA^2=25
OA=\sqrt{25}
||OA||=OA=5
2)向量的方向
方向是向量的第二個(gè)組成部分昌粤。
定義:向量 u(u_1,u_2) 的方向是向量:
w(\frac{u1}{∥u∥},\frac{u2}{∥u∥})
w 的坐標(biāo)是怎么來的既绕?
理解定義
為了找到向量的方向,我們需要使用它的角度涮坐。
[圖片上傳失敗...(image-285028-1531014273703)]
圖4 - 向量的方向
圖4表示向量 u(u_1,u_2) 中 u_1=3凄贩,u_2=4
我們可以得出:
樸素的定義1:向量 u 的方向是由橫軸夾角 \theta 和縱軸夾角 \alpha 決定的。
這個(gè)有點(diǎn)荒謬袱讹,實(shí)際上我們用角度的余弦值確定向量的方向疲扎。
在右邊的三角形中,角 \beta 的余弦值定義為:
cos(\beta) = \frac{鄰邊}{斜邊}
在圖4中我們能夠找到兩個(gè)三角形捷雕,它們的鄰邊是坐標(biāo)軸之一椒丧,這也就是說余弦值的定義隱含著和角度相關(guān)的坐標(biāo)軸。我們可以將我們的樸素定義換一種方式表達(dá):
樸素定義 2:向量 u 的方向是由角 \theta 的余弦值和角 \alpha 的余弦值決定的非区。
現(xiàn)在我們看看它們的值:
cos(\theta) = \frac{u_1}{||u||}
cos(\alpha) = \frac{u_2}{||u||}
這就是向量 w 最初的定義瓜挽,這是為什么它的坐標(biāo)也被稱為方向余弦。
計(jì)算向量的方向
我們現(xiàn)在將開始計(jì)算圖4中向量 u 的方向:
cos(\theta) = \frac{u_1}{||u||} = \frac{3}{5} = 0.6
和
cos(\theta) = \frac{u_2}{||u||} = \frac{4}{5} = 0.6
u(3,4)的方向是向量 w(0.6,0.8)
如果我們繪制出這個(gè)向量我們就得到了圖5:
[圖片上傳失敗...(image-238556-1531014273703)]
Figure 5: the direction of u
圖 5:u 的方向
我們能夠看到 w 除了更小一些外征绸,其他的實(shí)際上和 u 是一樣的久橙。有趣的是類似 w 這樣的方向向量的范數(shù)為1。這就是為什么我們常常稱它們?yōu)?strong>單位向量管怠。
向量的加減法
兩個(gè)向量的和
[圖片上傳失敗...(image-79ef1e-1531014273703)]
圖 6:向量u和v
已知向量 u(u_1,u_2) 和 v(v_1,v_2):
u+v = (u_1+v_1,u_2+v_2)
也就是說淆衷,兩個(gè)向量相加得到的新向量的坐標(biāo)是兩個(gè)向量的坐標(biāo)的和。
你可以通過下邊的這個(gè)例子確信這一點(diǎn):
[圖片上傳失敗...(image-7b5357-1531014273703)]
圖 7:兩個(gè)向量的和
兩個(gè)向量的差
差的運(yùn)算同理:
u+v = (u_1-v_1,u_2-v_2)
[圖片上傳失敗...(image-3546c5-1531014273703)]
圖 8:兩個(gè)向量的差
因?yàn)闇p法是沒有交換律的渤弛,我們也可以考慮另外一種情況:
[圖片上傳失敗...(image-af749b-1531014273703)]
圖 9:u-v的差
最后兩張圖描述了u和v的差向量
然而祝拯,因?yàn)橄蛄坑写笮『头较颍覀兂3她肯?紤]向量平移變換(擁有相同大小和方向但是起點(diǎn)不一樣的向量)得到的向量是一樣的佳头,僅僅是在空間上不同地方繪制而已。
因此如果你遇到如下的情況不要感到驚訝:
[圖片上傳失敗...(image-9e93f3-1531014273703)]
圖 10:v-u的另一種展現(xiàn)方式
和
[圖片上傳失敗...(image-9df54-1531014273703)]
圖 11:u-v的另一種展現(xiàn)方式
如果你進(jìn)行數(shù)學(xué)計(jì)算晴氨,它看起來是錯(cuò)的康嘉,因?yàn)橄蛄?u-v 的終點(diǎn)并不在正確的位置,但是你講會(huì)在以后經(jīng)常遇到這種便捷地表示向量的方式亭珍。
點(diǎn)乘
點(diǎn)乘是理解SVM的一個(gè)非常重要的概念肄梨。
"定義:從幾何的角度看众羡,點(diǎn)乘的結(jié)果是兩個(gè)向量的歐氏距離和他們之間的夾角辆毡。"
也就是說,如果我們有兩個(gè)向量x和y尔店,以及它們之間的夾角 \theta 嚣州,它們的點(diǎn)乘是:
x\cdot y = ||x||||y||cos(\theta)
為什么该肴?
為了理解這個(gè)匀哄,讓我們從幾何的角度看看這個(gè)問題雏蛮。
[圖片上傳失敗...(image-1873f7-1531014273703)]
我們來看看定義中 cos(\theta) 是什么法梯。
根據(jù)定義我們知道在直角角形中:
cos(\theta) = \frac{鄰邊}{斜邊}
在我們的例子中犀概,我們并沒有直角三角形姻灶。
然而如果我們換一個(gè)角度看圖 12至耻,我們能夠找到兩個(gè)直角三角形镊叁,每個(gè)都是由向量和橫軸的組成的晦譬。
[圖片上傳失敗...(image-7463d1-1531014273703)]
圖 13
和
[圖片上傳失敗...(image-1e5e88-1531014273703)]
圖 14
因此現(xiàn)在我們能夠像這樣的方式觀察之前的圖:
[圖片上傳失敗...(image-c6eade-1531014273703)]
圖 15
我們能夠得到
\theta = \beta - \alpha
因此計(jì)算 cos(\theta) 等價(jià)于計(jì)算 cos(\beta - \alpha)
有一個(gè)公式被稱之為 difference identity :
cos(\beta - \alpha) = cos(\beta)cos(\alpha) + sin(\beta)sin(\alpha)
(如果你想了解更多卧土,請(qǐng)看這個(gè)例子)
讓我們使用這個(gè)公式!
cos(\beta) = \frac{鄰邊}{斜邊} = \frac{x_1}{||x||}
sin(\beta) = \frac{對(duì)邊}{斜邊} = \frac{x_2}{||x||}
cos(\alpha) = \frac{鄰邊}{斜邊} = \frac{y_1}{||y||}
cos(\alpha) = \frac{對(duì)邊}{斜邊} = \frac{y_2}{||y||}
因此如果我們替換每個(gè)參數(shù)
cos(\beta - \alpha) = cos(\beta)cos(\alpha) + sin(\beta)sin(\alpha)
cos(\theta) = \frac{x_1}{||x||}\frac{y_1}{||y||}+\frac{x_2}{||x||}\frac{y_2}{||y||}
cos(\theta) = \frac{x_1y_1+x_2y_2}{\|x\|\|y\|}
如果我們兩邊同時(shí)乘以\|x\| \|y\|得到:
\|x\|\|y\|cos(\theta) = x_1y_1 + x_2y_2
等價(jià)于:
\|x\|\|y\|cos(θ)=xy
我們能夠發(fā)現(xiàn)點(diǎn)乘的幾何定義!
實(shí)際上我們能夠從最后兩個(gè)公式中看到:
xy = x_1y_1 + x_2y_2 = \sum{2}{i=1}(x_iy_i)
這是點(diǎn)乘的代數(shù)定義媳谁!
關(guān)于記號(hào)的一些說明
點(diǎn)乘之說以被這樣稱呼是因?yàn)槲覀冊(cè)趦蓚€(gè)向量中間寫了一個(gè)點(diǎn)晴音。
討論點(diǎn)乘x\cdoty和討論一下的說法是一樣的
- 的內(nèi)積
- 數(shù)量積锤躁,因?yàn)槲覀儗蓚€(gè)向量相乘得到了一個(gè)實(shí)數(shù)
向量的正交投影
給定兩個(gè)向量x和y系羞,我們想找到x在y上的正交投影觉啊。
[圖片上傳失敗...(image-b661ea-1531014273703)]
圖 16
為了能夠這樣做杠人,我們將向量\mathbf{x}投影在\mathbf{y}上
[圖片上傳失敗...(image-bcc68d-1531014273703)]
圖 17
我們得到向量\mathbf{z}
[圖片上傳失敗...(image-1a5023-1531014273703)]
根據(jù)定義:
cos(\theta) = \frac{\|z\|}{\|x\|}
\|z\| = \|x\|cos(\theta)
我們已經(jīng)知道了點(diǎn)乘公式
cos(\theta) = \frac{\mathbf{x}\cdot\mathbf{y}}{\|x\|\|y\|}
因此我們替換公式中的cos(\theta):
\|z\| = \|x\|\frac{\mathbf{x}\cdot\mathbf{y}}{\|x\|\|y\|}
如果我們定義\mathbf{u}為\mathbf{y}的方向,然后:
\mathbf{u} = \frac{\mathbf{y}}{\|y\|}
和
\|z\| = \mathbf{u}\cdot\mathbf{x}
我們現(xiàn)在有了計(jì)算向量\mathbf{z}的范數(shù)的簡(jiǎn)單的方法罩引。
因?yàn)橄蛄?span id="domy0fn" class="math-inline">\mathbf{z}和\mathbf{y}的方向一致袁铐,也是向量\mathbf{u}的方向
\mathbf{u}=\frac{\mathbf{z}}{\|z\|}
\mathbf{z} = \|z\|\mathbf{u}
因此我們能夠說:
向量\mathbf{z} = (\mathbf{u}\cdot\mathbf{x})\mathbf{u}是\mathbf{x}到\mathbf{y}的正交投影剔桨。
為什么我們對(duì)于正交投影如此感興趣呢洒缀?在我們的例子中萨脑,它讓我們能夠計(jì)算\mathbf{x}和經(jīng)過\mathbf{y}的直線之間的距離饺饭。
[圖片上傳失敗...(image-da76e6-1531014273703)]
圖 19
我們能夠看到這個(gè)距離就是\|x-z\|
\|x-z\| = \sqrt{(3-4)^2+(5-1)^2} = \sqrt{17}
SVM 超平面
理解超平面公式
你也許了解到直線方程是這樣的:y = ax+b瘫俊。然而军援,當(dāng)你讀到超平面的時(shí)候,你將會(huì)發(fā)現(xiàn)超平面方程是這樣定義的:
\mathbf{w}^T\mathbf{x} = 0
兩者之間有什么聯(lián)系呢赡鲜?
在超平面方程中嘲更,你能夠發(fā)現(xiàn)變量名是粗體的赋朦。這也就是說它們都是向量宠哄!更重要的是毛嫉,\mathbf{w}^T\mathbf{x}是我們計(jì)算兩個(gè)向量?jī)?nèi)積的方法承粤,如果你會(huì)想前邊所講過的辛臊,內(nèi)積就是點(diǎn)乘的另一種說法浪讳!
注意
y = ax +b
和
y-ax-b = 0
是一樣的
給定兩個(gè)向量\mathbf{w}(-b,-a,1)和\mathbf{x}(1,x,y)
\mathbf{w}^T\mathbf{x} = -b \times (1) + (-a)\times x + 1 \times y
\mathbf{w}^T\mathbf{x} = y - ax -b
兩個(gè)方程僅僅是用不同的方式表達(dá)同樣的意思口猜。
有趣的是济炎,w_0的值為-b须尚,也就是說這個(gè)值決定這直線和縱軸的交點(diǎn)耐床。
為什么我們使用超平面方程\mathbf{w}^T\mathbf{x}而不是y=ax+b撩轰?
兩個(gè)原因:
- 這種表達(dá)方式在高于二維的尺度上更加有效
- 向量\mathbf{w}是超平面的法線
并且最后一條性質(zhì)在計(jì)算點(diǎn)到超平面的距離上十分有用。
計(jì)算點(diǎn)到超平面的距離
在 圖20 我們有一個(gè)超平面皆串,將數(shù)據(jù)分為了兩組眉枕。
[圖片上傳失敗...(image-1eb4ee-1531014273703)]
圖 20
為了簡(jiǎn)化這個(gè)例子速挑,我們?cè)O(shè)w_0=0拓哟。
正如你在圖20上看到的断序,超平面方程為:
x_2 = -2x_1
等價(jià)于
\mathbf{w}^T\mathbf{x} = 0
其中\mathbf{w}(2,1)违诗、\mathbf{x}(x_1,x_2)
注意向量\mathbf{w}在圖20中诸迟。(\mathbf{w}不是一個(gè)數(shù)據(jù)點(diǎn))
我們想計(jì)算點(diǎn)A(3,4)到超平面的距離。
這個(gè)是A和它在超平面上的投影的距離
[圖片上傳失敗...(image-545fcc-1531014273703)]
圖 21
我們可以將點(diǎn) A 視為一個(gè)從原點(diǎn)到 A 的向量。
如果我們將它投影到法向量 \mathbf{w}
[圖片上傳失敗...(image-1babc1-1531014273703)]
圖 22:\mathbf{a} 投影到 \mathbf{w}
我們得到向量 \mathbf{p}
[圖片上傳失敗...(image-b7bf2a-1531014273703)]
圖 23:p 是 a 投影到 w 的向量
我們的目標(biāo)是找到 A(3,4) 和超平面之間的距離阵苇。
通過圖 23 我們能夠看到這個(gè)距離等于 \|p\|壁公。
讓我們來計(jì)算這個(gè)值。
我們從這兩個(gè)向量開始绅项,\mathbf{w}=(2,1) 是超平面是法向量紊册,\mathbf{a}=(3,4) 是從原點(diǎn)到點(diǎn) A 之間的向量。
\|w\| = \sqrt{2^2+1^2} = \sqrt{5}
設(shè)向量 \mathbf{u} 是 \mathbf{w} 的方向向量
\mathbf{u} = (\frac{2}{\sqrt{5}},\frac{1}{\sqrt{5}})
\mathbf{p} 是 \mathbf{a} 在 \mathbf{w} 上的正交投影快耿,因此:
\mathbf{p}=(\mathbf{u}\cdot\mathbf{a})\mathbf{u}
\mathbf{p}=(3\times\frac{2}{\sqrt{5}}+4\times\frac{1}{\sqrt{5}})\mathbf{u}
\mathbf{p}=(\frac{6}{\sqrt{5}}+\frac{4}{\sqrt{5}})\mathbf{u}
\mathbf{p}=\frac{10}{\sqrt{5}}\mathbf{u}
\mathbf{p}=(\frac{10}{\sqrt{5}}\times\frac{2}{\sqrt{5}},\frac{10}{\sqrt{5}}\times\frac{1}{\sqrt{5}})
\mathbf{p}=(\frac{20}{5},\frac{10}{5})
\mathbf{p}=(4,2)
\|p\| = \sqrt{4^2+2^2} = 2\sqrt{5}
計(jì)算超平面的間隔
現(xiàn)在我們已經(jīng)有了 A 和超平面之間的距離了囊陡,間隔的定義是:
margin = 2\|p\| = 4\sqrt{5}
我們做到了撞反!我們計(jì)算出了超平面的間隔鳍侣!
結(jié)論
這是本系列的第二篇凿可。
數(shù)學(xué)的內(nèi)容比較多敛助,但是我希望你已經(jīng)能夠很好的理解這個(gè)問題了焕数。
接下來是什么?
現(xiàn)在我們已經(jīng)知道如何計(jì)算間隔,我們也許想知道如何選擇最佳的超平面,這將在本教程的第三部分討論:如何找到最優(yōu)超平面?