對(duì)于一組訓(xùn)練集,我們可以將其分為三個(gè)向量X允瞧,Y庆杜,Θ
講義截圖
因?yàn)閷?duì)于X, Y, θ來(lái)說(shuō)射众,他們符合h(x)=y,所以矩陣意義上來(lái)說(shuō)
X · θ = Y
對(duì)于一般的方程式晃财,若想知道θ的值叨橱,直接把X除過(guò)去就行,但是這里因?yàn)閄是矩陣断盛,不一定存在X的逆矩陣(非方陣)罗洗,所以左右兩邊先X的轉(zhuǎn)置矩陣
XT·X · θ =?XT·Y (XT為X的轉(zhuǎn)置矩陣)
這樣X(jué)T·X就是方陣了,只要行列式不為0钢猛,就存在逆矩陣了
左右兩邊乘上XT·X的逆矩陣(假設(shè)存在伙菜,后討論可能不存在的情況)
θ = (XT·X)^-1 ·XT·Y
這就是正規(guī)方程(Normal Equation)
但是,XT·X的逆矩陣有可能不存在命迈,不存在的原因就幾種:
1.特征冗余 也就是說(shuō)選取的特征直接存在線性關(guān)系仇让,如正方形的面積與邊長(zhǎng),解決方案是刪掉冗余的特征
2.特征過(guò)剩 例如特征n的個(gè)數(shù)比訓(xùn)練集m的個(gè)數(shù)還多躺翻,解決方案是刪除部分特征或用“正則化”
正規(guī)方程與梯度下降對(duì)比:
兩者都是用于求最佳的θ值丧叽,不過(guò)兩種方法有不同的應(yīng)用場(chǎng)景
正規(guī)方程不需要算α,而且不像梯度下降一般公你,而是一步到位踊淳,但是復(fù)雜度為o(n^3),適合n較小時(shí)的場(chǎng)景
梯度下降的復(fù)雜度為o(n^2)陕靠,更適合n更大的場(chǎng)景迂尝。