線性回歸辉词,邏輯回歸的學習(包含最小二乘法及極大似然函數(shù)等)

回歸問題的前提:

1) 收集的數(shù)據(jù)

2) 假設(shè)的模型必孤,即一個函數(shù),這個函數(shù)里含有未知的參數(shù)瑞躺,通過學習敷搪,可以估計出參數(shù)。然后利用這個模型去預測/分類新的數(shù)據(jù)幢哨。

1. 線性回歸

假設(shè) 特征 和 結(jié)果 都滿足線性赡勘。即不大于一次方。這個是針對 收集的數(shù)據(jù)而言捞镰。

收集的數(shù)據(jù)中闸与,每一個分量,就可以看做一個特征數(shù)據(jù)岸售。每個特征至少對應(yīng)一個未知的參數(shù)践樱。這樣就形成了一個線性模型函數(shù),向量表示形式:


向量默認為列向量凸丸,此處的X表示一個列向量拷邢,其中內(nèi)容為(x1,x2屎慢,x3.......,xn)瞭稼,用以表示收集的一個樣例忽洛。

向量內(nèi)容為設(shè)置的系數(shù)(w1,w2.....,wn),也就是要通過學習得到的系數(shù)环肘,轉(zhuǎn)置后成為行向量欲虚。兩者相乘后得到預測打分h。

這個就是一個組合問題廷臼,已知一些數(shù)據(jù)苍在,如何求里面的未知參數(shù),給出一個最優(yōu)解荠商。 一個線性矩陣方程寂恬,直接求解,很可能無法直接求解莱没。有唯一解的數(shù)據(jù)集基本是不存在的初肉。基本上都是解不存在的超定方程組(未知數(shù)的個數(shù)小于方程的個數(shù))饰躲。因此牙咏,需要退一步,將參數(shù)求解問題嘹裂,轉(zhuǎn)化為求最小誤差問題妄壶,求出一個最接近的解,這就是一個松弛求解寄狼。

求一個最接近解丁寄,直觀上,就能想到泊愧,誤差最小的表達形式伊磺。仍然是一個含未知參數(shù)的線性模型,一堆觀測數(shù)據(jù)删咱,其模型與數(shù)據(jù)的誤差最小的形式屑埋,模型與數(shù)據(jù)差的平方和最小:


這就是損失函數(shù)(cost function)的來源痰滋,文中之后我們稱之為目標函數(shù)摘能。接下來,就是求解這個函數(shù)最小值的方法即寡,有最小二乘法徊哑,梯度下降法等(利用這些方法使這個函數(shù)的值最小)聪富。

**********最小二乘法:************

多元函數(shù)求極值的方法,對θ求偏導著蟹,讓偏導等于0墩蔓,求出θ值梢莽。當θ為向量時,需要對各個θi求偏導計算奸披。

為了便于理解昏名,可以先看當數(shù)據(jù)集中的樣本只有一個特征時的情況,參看之前的最小二乘法博文阵面,可以直接得出theta的值(原先博文中表示為beta)轻局。當含有多個特征時,需要進行矩陣計算從而求出各個θi:


如上圖中將目標函數(shù)拆解為兩個式子相乘的形式(

)其中的X表示獲取的數(shù)據(jù)集轉(zhuǎn)換成的矩陣样刷,與列向量

相乘后得到預測打分(列向量θ)仑扑,與真實打分y向量想減后平方。上圖中的下半部分對于拆解后的目標函數(shù)進行求導置鼻,令求導后的式子=0镇饮,如下圖:

由此可以得到向量θ的值。

其中補充說明:


*****************梯度下降法:**************************

分別有梯度下降法箕母,批梯度下降法储藐,增量梯度下降。本質(zhì)上嘶是,都是偏導數(shù)钙勃,步長/最佳學習率,更新聂喇,收斂的問題辖源。這個算法只是最優(yōu)化原理中的一個普通的方法,可以結(jié)合最優(yōu)化原理來學授帕,就容易理解了同木。(梯度下降中用到的目標函數(shù)不一定是之前提到的那個距離最小函數(shù),在之后的邏輯回歸中跛十,要用到梯度上升彤路,在那里細述)


******************極大似然法************************************

極大似然的核心思想為:

當從模型總體隨機抽取n組樣本觀測值后,最合理的參數(shù)估計量應(yīng)該使得從模型中抽取該n組樣本觀測值的概率最大芥映。打個比方:一個袋子中有20個球洲尊,只有黑白兩色,有放回的抽取十次奈偏,取出8個黑球和2個白球坞嘀,計算袋子里有白球黑球各幾個。那么我會認為我所抽出的這個樣本是被抽取的事件中概率最大的惊来。p(黑球=8)=p^8*(1-p)^2,讓這個值最大丽涩。極大似然法就是基于這種思想。


極大似然估計的定義如下:








求解方法同樣采用多元函數(shù)求極值法。

2矢渊、邏輯回歸

邏輯回歸與線性回歸的聯(lián)系继准、異同?

邏輯回歸的模型 是一個非線性模型矮男,sigmoid函數(shù)移必,又稱邏輯回歸函數(shù)。但是它本質(zhì)上又是一個線性回歸模型毡鉴,因為除去sigmoid映射函數(shù)關(guān)系崔泵,其他的步驟,算法都是線性回歸的猪瞬≡魅常可以說,邏輯回歸撑螺,都是以線性回歸為理論支持的含思。只不過,線性模型甘晤,無法做到sigmoid的非線性形式含潘,sigmoid可以輕松處理0/1分類問題。

在另一篇博文(logistic)中有對邏輯回歸的詳細說明线婚。在邏輯回歸中遏弱,重新定義了cost function,

另外它的推導含義:仍然與線性回歸的最大似然估計推導相同塞弊,最大似然函數(shù)連續(xù)積(這里的分布漱逸,可以使伯努利分布,或泊松分布等其他分布形式)游沿,求導饰抒,得損失函數(shù)。

(參看logistic那篇博文)

3诀黍、一般線性回歸(這部分尚未做過多研究)

線性回歸 是以 高斯分布 為誤差分析模型袋坑; 邏輯回歸 采用的是 伯努利分布 分析誤差。

而高斯分布眯勾、伯努利分布枣宫、貝塔分布、迪特里特分布吃环,都屬于指數(shù)分布也颤。

而一般線性回歸,在x條件下郁轻,y的概率分布 p(y|x) 就是指 指數(shù)分布.

經(jīng)歷最大似然估計的推導翅娶,就能導出一般線性回歸的 誤差分析模型(最小化誤差模型)。

softmax回歸就是 一般線性回歸的一個例子。

有監(jiān)督學習回歸故觅,針對多類問題(邏輯回歸厂庇,解決的是二類劃分問題)渠啊,如數(shù)字字符的分類問題输吏,0-9,10個數(shù)字,y值有10個可能性替蛉。

而這種可能的分布贯溅,是一種指數(shù)分布。而且所有可能的和 為1躲查,則對于一個輸入的結(jié)果它浅,其結(jié)果可表示為:


參數(shù)是一個k維的向量。

而代價函數(shù):

是邏輯回歸代價函數(shù)的推廣镣煮。

而對于softmax的求解姐霍,沒有閉式解法(高階多項方程組求解),仍用梯度下降法典唇,或L-BFGS求解镊折。

當k=2時,softmax退化為邏輯回歸介衔,這也能反映softmax回歸是邏輯回歸的推廣恨胚。

線性回歸,邏輯回歸炎咖,softmax回歸 三者聯(lián)系赃泡,需要反復回味,想的多了乘盼,理解就能深入了升熊。

4. 擬合:擬合模型/函數(shù)

由測量的數(shù)據(jù),估計一個假定的模型/函數(shù)绸栅。如何擬合级野,擬合的模型是否合適?可分為以下三類

合適擬合

欠擬合

過擬合

看過一篇文章(附錄)的圖示阴幌,理解起來很不錯:

欠擬合:

合適的擬合

過擬合

過擬合的問題如何解決勺阐?

問題起源?模型太復雜矛双,參數(shù)過多渊抽,特征數(shù)目過多。

方法: 1) 減少特征的數(shù)量议忽,有人工選擇懒闷,或者采用模型選擇算法

http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html (特征選擇算法的綜述)

? ? ?2) 正則化,即保留所有特征,但降低參數(shù)的值的影響愤估。正則化的優(yōu)點是帮辟,特征很多時,每個特征都會有一個合適的影響因子玩焰。

7. 錯誤函數(shù)/代價函數(shù)/損失函數(shù):

線性回歸中采用平方和的形式由驹,一般都是由模型條件概率的最大似然函數(shù) 概率積最大值,求導昔园,推導出來的蔓榄。

統(tǒng)計學中,損失函數(shù)一般有以下幾種:

1) 0-1損失函數(shù)

L(Y,f(X))={1,0,Y≠f(X)Y=f(X)

2) 平方損失函數(shù)

L(Y,f(X))=(Y?f(X))2

3) 絕對損失函數(shù)

L(Y,f(X))=|Y?f(X)|

4) 對數(shù)損失函數(shù)

L(Y,P(Y|X))=?logP(Y|X)

損失函數(shù)越小默刚,模型就越好甥郑,而且損失函數(shù) 盡量 是一個凸函數(shù),便于收斂計算荤西。

線性回歸澜搅,采用的是平方損失函數(shù)。而邏輯回歸采用的是 對數(shù) 損失函數(shù)邪锌。 這些僅僅是一些結(jié)果勉躺,沒有推導。

8. 正則化:

為防止過度擬合的模型出現(xiàn)(過于復雜的模型)秃流,在損失函數(shù)里增加一個每個特征的懲罰因子赂蕴。這個就是正則化。如正則化的線性回歸 的 損失函數(shù):

lambda就是懲罰因子舶胀。

正則化是模型處理的典型方法概说。也是結(jié)構(gòu)風險最小的策略。在經(jīng)驗風險(誤差平方和)的基礎(chǔ)上嚣伐,增加一個懲罰項/正則化項糖赔。

線性回歸的解,也從

θ=(XTX)?1XTy

轉(zhuǎn)化為

括號內(nèi)的矩陣轩端,即使在樣本數(shù)小于特征數(shù)的情況下放典,也是可逆的。

邏輯回歸的正則化:

從貝葉斯估計來看基茵,正則化項對應(yīng)模型的先驗概率奋构,復雜模型有較大先驗概率,簡單模型具有較小先驗概率拱层。這個里面又有幾個概念弥臼。

什么是結(jié)構(gòu)風險最小化?先驗概率根灯?模型簡單與否與先驗概率的關(guān)系径缅?

邏輯回歸logicalistic regression 本質(zhì)上仍為線性回歸掺栅,為什么被單獨列為一類?

其存在一個非線性的映射關(guān)系纳猪,處理的一般是二元結(jié)構(gòu)的0氧卧,1問題,是線性回歸的擴展氏堤,應(yīng)用廣泛沙绝,被單獨列為一類。

而且如果直接應(yīng)用線性回歸來擬合邏輯回歸數(shù)據(jù)丽猬,就會形成很多局部最小值宿饱。是一個非凸集,而線性回歸損失函數(shù) 是一個 凸函數(shù)脚祟,即最小極值點,即是全局極小點强饮。模型不符由桌。

若采用 邏輯回歸的 損失函數(shù),損失函數(shù)就能形成一個 凸函數(shù)邮丰。

多項式樣條函數(shù)擬合

多項式擬合行您,模型是一個多項式形式;樣條函數(shù)剪廉,模型不僅連續(xù)娃循,而且在邊界處,高階導數(shù)也是連續(xù)的斗蒋。好處:是一條光滑的曲線捌斧,能避免邊界出現(xiàn)震蕩的形式出現(xiàn)(龍格線性)

http://baike.baidu.com/view/301735.htm

以下是幾個需慢慢深入理解的概念:

無結(jié)構(gòu)化預測模型

結(jié)構(gòu)化預測模型

什么是結(jié)構(gòu)化問題?

adaboost泉沾, svm捞蚂, lr 三個算法的關(guān)系。

三種算法的分布對應(yīng) exponential loss(指數(shù) 損失函數(shù))跷究, hinge loss姓迅, log loss(對數(shù)損失函數(shù)), 無本質(zhì)區(qū)別俊马。應(yīng)用凸上界取代0丁存、1損失,即凸松弛技術(shù)柴我。從組合優(yōu)化到凸集優(yōu)化問題解寝。凸函數(shù),比較容易計算極值點屯换。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末编丘,一起剝皮案震驚了整個濱河市与学,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌嘉抓,老刑警劉巖索守,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異抑片,居然都是意外死亡卵佛,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進店門敞斋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來截汪,“玉大人,你說我怎么就攤上這事植捎⊙媒猓” “怎么了?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵焰枢,是天一觀的道長蚓峦。 經(jīng)常有香客問我,道長济锄,這世上最難降的妖魔是什么暑椰? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮荐绝,結(jié)果婚禮上一汽,老公的妹妹穿的比我還像新娘。我一直安慰自己低滩,他們只是感情好召夹,可當我...
    茶點故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著委造,像睡著了一般戳鹅。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上昏兆,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天枫虏,我揣著相機與錄音,去河邊找鬼爬虱。 笑死隶债,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的跑筝。 我是一名探鬼主播死讹,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼曲梗!你這毒婦竟也來了赞警?” 一聲冷哼從身側(cè)響起妓忍,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎愧旦,沒想到半個月后世剖,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡笤虫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年旁瘫,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片琼蚯。...
    茶點故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡酬凳,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出遭庶,到底是詐尸還是另有隱情宁仔,我是刑警寧澤,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布罚拟,位于F島的核電站台诗,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏赐俗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一弊知、第九天 我趴在偏房一處隱蔽的房頂上張望阻逮。 院中可真熱鬧,春花似錦秩彤、人聲如沸叔扼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至纽什,卻和暖如春降盹,著一層夾襖步出監(jiān)牢的瞬間与柑,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工蓄坏, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留价捧,地道東北人。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓涡戳,卻偏偏與公主長得像结蟋,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子渔彰,可洞房花燭夜當晚...
    茶點故事閱讀 43,666評論 2 350

推薦閱讀更多精彩內(nèi)容