一 線性模型特點(diǎn)
? 形式簡(jiǎn)單胳施、易于建模、具有特別好的可解釋性——權(quán)重大小就直接表示該屬性的重要程度昏名。
二 線性回歸
1. 定義:給定數(shù)據(jù)集渠抹,其中?“線性回歸”試圖學(xué)習(xí)得一個(gè)線性模型以盡可能準(zhǔn)確地預(yù)測(cè)實(shí)際輸出標(biāo)記。
2. 一元線性回歸:輸入屬性的數(shù)目只有一個(gè)葬项,權(quán)重w是一個(gè)數(shù)泞当。即線性回歸試圖學(xué)得,使得民珍。
3. 線性回歸的主要任務(wù)在于如何確定w和b襟士,這又決定于如何衡量f(x)與y之間的差別——均方誤差是回歸任務(wù)中最常用的性能度量(均方誤差有非常好的幾何意義,對(duì)應(yīng)了常用的歐幾里得距離嚷量,基于均方誤差最小化來(lái)進(jìn)行模型求解的方法稱為“最小二乘法”)陋桂,因此我們可試圖讓均方誤差最小化(找到一條直線,使所有樣本到直線上的歐氏距離之和最械堋)嗜历,即:
4. 求解w和b使最小化的過(guò)程,稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”抖所。
5. 求解方法:將分別對(duì)w和b求導(dǎo)梨州,并令倒數(shù)為零便可得到w和b最優(yōu)解的閉式解。
由于田轧;暴匠,在一階倒數(shù)最小處必然取得極小值。令:
-->
6. 多元線性回歸:樣本由d個(gè)屬性描述涯鲁,多元回歸試圖學(xué)得巷查,使得,使得抹腿。
7.廣義線性回歸:令線性模型預(yù)測(cè)值逼近y的衍生物岛请,例如對(duì)數(shù)線性回歸:,它試圖讓逼近y警绩,形式上仍是線性回歸崇败,但實(shí)質(zhì)上在求取輸入空間到輸出空間的非線性函數(shù)映射。
三 對(duì)數(shù)幾率回歸(邏輯斯蒂回歸)
1. 若要進(jìn)行分類(lèi)肩祥,需要將分類(lèi)任務(wù)的真實(shí)標(biāo)記與線性回歸模型的預(yù)測(cè)值聯(lián)系起來(lái)——通過(guò)一個(gè)單調(diào)可微函數(shù)后室。
2. 考慮二分類(lèi)任務(wù),其輸出標(biāo)記混狠,將線性回歸產(chǎn)生的實(shí)值轉(zhuǎn)換為0/1值岸霹,最理想的是“單位階躍函數(shù)”,即若預(yù)測(cè)值z(mì)大于零就判為正例将饺,小于零則判為反例贡避,預(yù)測(cè)值為臨界值零則可任意判別痛黎。但是該函數(shù)不連續(xù)--->選擇一定程度上近似單位階躍函數(shù)的對(duì)數(shù)幾率函數(shù)——一種“Sigmoid函數(shù)”(形似S的函數(shù))。定義如下:
? ? ?--->? ??(對(duì)數(shù)幾率刮吧,用線性模型去逼近真實(shí)標(biāo)記的對(duì)數(shù)幾率)--->對(duì)數(shù)幾率回歸(logit regression/邏輯斯蒂回歸)湖饱,雖然名字是“回歸”,但實(shí)際是一種分類(lèi)學(xué)習(xí)方法杀捻。
3. 對(duì)數(shù)幾率回歸的優(yōu)勢(shì):(1)直接對(duì)分類(lèi)可能性進(jìn)行建模井厌,無(wú)需事先假設(shè)數(shù)據(jù)分布,可避免假設(shè)分布不準(zhǔn)確所帶來(lái)的問(wèn)題致讥;(2)它不是僅預(yù)測(cè)出“類(lèi)別”仅仆,而是可得到近似概率預(yù)測(cè),這對(duì)許多需利用概率輔助決策的任務(wù)很有用垢袱;(3)對(duì)數(shù)幾率函數(shù)是任意階可導(dǎo)的凸函數(shù)蝇恶,有很好的數(shù)學(xué)性質(zhì),現(xiàn)有的許多數(shù)值優(yōu)化算法都可直接用于求取最優(yōu)解惶桐。
4. 模型參數(shù)估計(jì):若將y視為類(lèi)后驗(yàn)概率估計(jì)p(y=1 | x),則2中的式子可重寫(xiě)為:
?--->??
(二項(xiàng)邏輯斯蒂回歸模型潘懊,對(duì)于輸入x姚糊,比較兩個(gè)條件概率值的大小,將實(shí)例x分到概率值較大的那一類(lèi))
于是可以通過(guò)“極大似然法”來(lái)估計(jì)w和b授舟。給定數(shù)據(jù)集救恨,對(duì)數(shù)幾率回歸模型最大化“對(duì)數(shù)似然”:即令每個(gè)樣本屬于真實(shí)標(biāo)記的概率越大越好。
5. 對(duì)數(shù)似然函數(shù)詳細(xì)推導(dǎo):對(duì)于給定的訓(xùn)練數(shù)據(jù)集释树,其中對(duì)于單個(gè)樣本肠槽,=1的概率是,=0的概率是奢啥,所以對(duì)于單個(gè)樣本應(yīng)該最大化秸仙,對(duì)于所有m個(gè)樣本其似然函數(shù)為:,對(duì)數(shù)似然函數(shù)為
桩盲,根據(jù)邏輯斯蒂回歸函數(shù)可得以下式子:
則對(duì)上式求極大值便能得到w和b得估計(jì)值寂纪,求極大值通常采用的方法是梯度下降法和擬牛頓法。
6. 多項(xiàng)邏輯斯蒂回歸:多分類(lèi)問(wèn)題中赌结,變量捞蛋,那么多項(xiàng)邏輯斯蒂回歸模型是:
二項(xiàng)邏輯斯蒂回歸的參數(shù)估計(jì)方法也可以推廣到多項(xiàng)邏輯斯蒂回歸。
備注:《機(jī)器學(xué)習(xí)》第3章筆記柬姚,《統(tǒng)計(jì)學(xué)習(xí)方法》第6章拟杉。
四 感知機(jī)
1. 定義:假設(shè)輸入空間(特征向量)是,輸出空間是量承。輸入表示實(shí)例的特征向量搬设,對(duì)應(yīng)于輸入空間(特征空間)的點(diǎn)穴店;輸出表示實(shí)例的類(lèi)別。由輸入空間到輸出空間的如下函數(shù)稱為感知機(jī):
焕梅,w為權(quán)值迹鹅,b為偏置。
2. 感知機(jī)學(xué)習(xí)目標(biāo):求得一個(gè)能夠?qū)⒂?xùn)練集正實(shí)例點(diǎn)和負(fù)實(shí)例點(diǎn)完全分開(kāi)的分離超平面贞言。
3. 感知機(jī)學(xué)習(xí)策略(損失函數(shù)):誤分類(lèi)點(diǎn)到超平面S的總距離最小斜棚。
1)輸入空間中任一點(diǎn)到超平面S到距離:;
2)誤分類(lèi)點(diǎn)到超平面S的距離:该窗;
3)所有M個(gè)誤分類(lèi)點(diǎn)到超平面S的總距離:弟蚀;
4)不考慮常數(shù)項(xiàng),感知機(jī)學(xué)習(xí)的損失函數(shù)(經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)):酗失。
5)感知機(jī)的學(xué)習(xí)策略:在假設(shè)空間中選取使該損失函數(shù)最小的模型參數(shù)义钉。
4. 感知機(jī)學(xué)習(xí)算法:求解損失函數(shù)最優(yōu)化問(wèn)題-->隨機(jī)梯度下降。首先规肴,任意選取一個(gè)超平面捶闸,然后采用梯度下降法不斷地極小化目標(biāo)函數(shù),極小化過(guò)程中不是一次使M中所有誤分類(lèi)點(diǎn)的梯度下降拖刃,而是一次隨機(jī)選取一個(gè)誤分類(lèi)點(diǎn)使其梯度下降删壮。感知機(jī)算法存在許多解,這些解既依賴于初值的選擇兑牡,也依賴于迭代過(guò)程中誤分類(lèi)點(diǎn)的選擇順序央碟。為了得到唯一的超平面,需要對(duì)分離超平面增加約束條件-->線性支持向量機(jī)均函。
備注:《統(tǒng)計(jì)學(xué)習(xí)方法》第2章筆記亿虽。