線性回歸
通俗地說就是讓機器畫條線礁遣,使盡量多的點落在這個直線上,新的數(shù)據(jù)便可根據(jù)這條曲線獲得對應預測值
以為例肿仑,數(shù)學上通過最小二乘法計算真實與估測的誤差:
開平方使負數(shù)為正坑律,因為誤差概念上是個正數(shù)。當然使用絕對值伯襟,不過絕對值非連續(xù)可導猿涨,數(shù)學性質(zhì)不好,最小二乘法是滿足問題最經(jīng)典的解決方式逗旁。我們的目標就是調(diào)節(jié)a嘿辟、b使誤差具有最小值:
上述函數(shù)稱為代價函數(shù)或損失函數(shù),原f(x)為需要求解的目標函數(shù)片效。損失函數(shù)的僅是剛好抵消后續(xù)求平方導數(shù)的常數(shù)2
邏輯回歸
通俗地說就是讓機器畫條線红伦,使兩類數(shù)據(jù)離這條線越遠越好。因為離得越遠的數(shù)據(jù)越具備明顯的分類特征淀衣,假設一個樣本剛好在曲線上昙读,你說它是圓還是叉?
邏輯回歸是解決分類問題膨桥,主流解決思想是最大似然估計:已知結果蛮浑,推測概率唠叛。以擲硬幣為例,100次試驗得到70次正面沮稚,則似然函數(shù)為艺沼,p=0.7時獲得最大值,似然函數(shù)代表一種公信力:正面概率為0.7時蕴掏,最可能產(chǎn)生10次投擲出現(xiàn)7次正面的情況障般。對于只有2種結果(伯努利分布)的分類問題,邏輯回歸中的損失函數(shù)使用似然函數(shù):f(x)代表機器預測概率盛杰,y代表真實概率
??
由于小數(shù)連乘易下溢(過多小數(shù)0.0...0導致計算機設置為0)挽荡,使用對數(shù)簡化
求解函數(shù)最大值即可滿足目標:正樣本時預測值盡量為1、負樣本時預測值盡量為0即供。以圖識貓為例定拟,一張貓圖的真實結果應為(1,0),而實際預測為(0.8,0.2)逗嫡,雖說80%是貓大概率可認定是貓圖青自,但我們還是希望預測值盡量為(1,0)
f(x)是預測概率,那么需要尋找一個能將任意輸出值轉(zhuǎn)化為區(qū)間在0-1的函數(shù)
Sigmoid值域∈(0,1)且求導方便驱证,剛好滿足要求性穿,從而成為邏輯回歸問題中的御用函數(shù)。將Sigmoid的x換成f(x)雷滚,即回到線性回歸:定義目標函數(shù)f(x),求最優(yōu)參數(shù)使得損失函數(shù)值最大
對于多分類問題吗坚,轉(zhuǎn)化為單分類問題即可:先識別是不是三角形祈远、再識別是不是正方形...
Softmax
對于多分類問題,常使用進行預測
如識別貓升級為識別貓商源、狗车份、馬,一張貓圖的真實結果應為(1,0,0)牡彻,通過上述函數(shù)可預測為(0.88,0.12,0)
注:以上結果將最大值直接置為1扫沼,其他置為0的手段為Hardmax
Softmax由于指數(shù)運算,可能造成數(shù)據(jù)上溢(分子過大數(shù)據(jù)溢出)或下溢(分母過小被計算機置為0)庄吼,取缎除,則,則有
①分子相當于总寻,不會造成上溢
②分母相當于器罐,不會造成下溢(是具有最大值的那個樣本)
梯度下降
線性回歸、邏輯回歸中渐行,我們需要確定最終參數(shù)使得損失函數(shù)最大或最小轰坊。實際情況下待解方程式?jīng)]有閉式解或閉式求解復雜度較高(正規(guī)方程)铸董,梯度下降是解決函數(shù)最小值下最優(yōu)解的經(jīng)典方法(最大值則對應梯度上升)。以圖為例肴沫,小明站在山頂粟害,要求每走一步必須向下山的方向走
如果是二次函數(shù),則只會有一個山底颤芬,對應全局最優(yōu)解悲幅。就不會出現(xiàn)上圖中走到某個局部山谷里
以線性回歸中的參數(shù)w為例,則
①導數(shù)大于0時驻襟,代表此時是上山方向夺艰,參數(shù)需往反方向移動下山
②導數(shù)小于0時,代表此時是下山方向沉衣,參數(shù)需保持該方向繼續(xù)下山
α是學習率郁副,需人工定義,過小運算次數(shù)會增多豌习,過大會逃離最優(yōu)解(越接近最優(yōu)解存谎,導數(shù)越趨近于0,α乘以導數(shù)后值變大肥隆,再乘以一次會越來越大既荚,導致離最優(yōu)解越來越遠)
實際運用,會從龐大的數(shù)據(jù)樣本中選取一個或部分進行梯度下降
批量梯度下降法 BGD:使用所有樣本進行參數(shù)更新
隨機梯度下降法 SGD:選擇一個樣本進行參數(shù)更新
小批量梯度下降法MBGD:選取部分樣本進行參數(shù)更新
正則化
過擬合(應試能力強栋艳,應用能力差)會造成曲線波動劇烈恰聘,某些部分的導數(shù)絕對值會過大。以線性回歸為例吸占,w是特征向量的參數(shù)集合晴叨、M代表最高冪項,越復雜的多項式能實現(xiàn)越復雜的曲線(一次冪是直線矾屯、二次冪是凹凸曲線...)兼蕊,從而更加完美的擬合數(shù)據(jù)。因此M=3的擬合公式較為合適件蚕、M=9則實際應用效果不穩(wěn)定
簡化目標函數(shù)外優(yōu)化過擬合的另外一個方式則是正則化孙技。一個簡單的方法是約束所有參數(shù)和的范圍,使其不能超過這個范圍排作。以兩個參數(shù)為例牵啦,藍色圓點為最優(yōu)解可完美擬合所有數(shù)據(jù),限定參數(shù)范圍即可使其無法達到最優(yōu)解纽绍。如代表參數(shù)僅能在半徑為C的圓圈內(nèi)尋找最優(yōu)解
C過大可使最優(yōu)解落在約束區(qū)間內(nèi)蕾久,假設最優(yōu)解未在約束區(qū)間內(nèi),則約束空間內(nèi)的最優(yōu)解將位于兩者梯度相反、切線平行的部分:
注:切線平行如向量,則有
那么求導等于0時的最小值即為正則后的最優(yōu)解:
①,則
由于是求w最小值皆怕,則可簡化為
此為LASSO回歸毅舆,損失函數(shù)形如
當k達到一定大小時,會使最小值落在原點(相當于多項式函數(shù)中高階冪在變量較小時無法壓制低階冪愈腾,從而導致該區(qū)間內(nèi)展示低階冪曲線)憋活。這個屬性會導致部分特征參數(shù)為0,代表這個特征不是必要特征虱黄,可以考慮直接去掉此特征
②悦即,則
同理可簡化為
此為RIDGE回歸,相對LASSO回歸會更加接近樣本真實情況
注:正則化一般不對常數(shù)項進行懲罰橱乱,主要是對相關特征進行約束辜梳,實際使用中對進行約束也沒有影響
ElasticNet回歸結合兩者優(yōu)勢,可表達為:
泳叠,α可定義為0.5
或