- 線性回歸用于預(yù)測乞榨,以及建立變量之間是否有關(guān)系
- 找損失方程解有兩種方法
-
第一種,標(biāo)準(zhǔn)方程normal equation
image.png
image.png - 第二種,梯度下降Gradient Descent
- 針對凸方程和非凸方程的梯度下降
- 若是凸方程帘靡,則全局最小值能確認(rèn)被找到
- 若是非凸方程,(實際情況中瓤帚,多是非凸問題)描姚,常常找到的是本地最小值。且不同的起始點戈次,會有不同的本地最小值轩勘。
- 梯度下降優(yōu)缺點
- 優(yōu)點,即使特征值數(shù)量很大怯邪,仍能找到最小值
- 缺點绊寻, 需要尋找learning rate,多次迭代
- 標(biāo)準(zhǔn)方程優(yōu)缺點
- 優(yōu)點:無需確認(rèn)learning rate悬秉,無需迭代澄步,當(dāng)特征值數(shù)量小的時候,起作用
-
缺點:需要矩陣運算和泌,如果特征值很大村缸,則相關(guān)的矩陣運算很費時。
image.png
- Feature scaling特征縮放
- 使用梯度下降尋找最小損失時允跑,需要考慮數(shù)據(jù)的尺寸范圍王凑,若數(shù)值范圍相差很大,則很難收斂聋丝。
-
特征縮放法1: min-max normalization
image.png
-min-max標(biāo)準(zhǔn)化將數(shù)據(jù)縮放到固定的[0,1]范圍
特征縮放法2: Z-score normalization/standardization
image.png - Z-score產(chǎn)生均值為0,方差為1的數(shù)據(jù)分布
- Z-score標(biāo)準(zhǔn)化方法通常不會被限于某一范圍工碾,這對神經(jīng)網(wǎng)絡(luò)就不太適用弱睦,因為神經(jīng)網(wǎng)絡(luò)希望值的范圍是[0,1]
-Z-score很少受outliers的影響
- 創(chuàng)建新特征
- 定義:基于已有的特征,創(chuàng)建新的特征渊额,這樣就減少了特征的數(shù)量(在multiple linear regression中况木,即多個變量)
-
Multicollinearity多重共線性
-定義:回歸中垒拢,預(yù)測器之間互相影響;換句話說火惊,你的模型有許多互相相關(guān)的變量求类,那么這些變量就有些多余了。
image.png
舉例屹耐,上圖中尸疆,房價,人口數(shù)量惶岭,總收入寿弱,就業(yè)率這四者之間互相相關(guān)。
- 多重共線性是回歸分析中重要的問題之一按灶,它導(dǎo)致不穩(wěn)定的參數(shù)估計症革,且造成標(biāo)準(zhǔn)差急速增加。
- 多項式回歸polynomial regression
- 簡單的線性回歸不能表示數(shù)據(jù)鸯旁,就可以使用多項式回歸噪矛,但也會遇到過擬合問題
- 解決過擬合問題的方法: 1)較少模型復(fù)雜度,即減少多項式的變量铺罢; 2)使用L1/L2 正則化 艇挨; 3)用更多的數(shù)據(jù)。