主要講述一元線性回歸算法的主要內(nèi)容,因此默認對監(jiān)督學習的定義有所了解力细,若不清楚可查看吳恩達機器學習第一講或自行Google泻云。
首先,我們知道,在監(jiān)督學習中稳捆,我們一般都會有已有的數(shù)據(jù)集且其擁有明確的輸入輸出結(jié)果.監(jiān)督學習主要分為回歸和分類兩種類型赠法,而這里我們只討論回歸問題。
模型概述
在回歸問題中乔夯,一般都是去嘗試尋找一個連續(xù)的函數(shù)來盡可能的表達出輸入輸出之間的關(guān)系砖织,為了方便表示,我們使用來表示輸入的變量末荐,
表示輸出值或稱作目標值侧纯,一對(
,
)稱作是一個訓練樣本(training example),而包含了所有的數(shù)據(jù)(
,
)甲脏,i=1,2,3... 的集合m稱作訓練集(training set),而標在右上方的i僅僅是指這個訓練集的一個索引眶熬,不是次方的意思妹笆。我們同時也使用X和Y表示所有的輸入輸出值的值域,X=Y=R.
為了方便表示監(jiān)督學習娜氏,如下圖所示拳缠,給定一個訓練集,去學習一個算法h使得輸入x能更好的預(yù)測到結(jié)果y贸弥,這里的算法函數(shù)我們稱作假設(shè)函數(shù)窟坐。
![](http://www.leafw.cn/wp-content/uploads/2018/08/model.png)
代價函數(shù)(cost function)
如何來評價我們設(shè)定的假設(shè)函數(shù)是否準確呢,這里我們引入代價函數(shù)的概念绵疲。
首先哲鸳,假設(shè)我們有一組數(shù)據(jù),x表示當天氣溫(攝氏度)盔憨,y表示當天某商店出售熱飲數(shù)量(杯):
x | y |
---|---|
13 | 70 |
18 | 48 |
10 | 83 |
4 | 102 |
1 | 122 |
7 | 90 |
11 | 84 |
5 | 94 |
3 | 97 |
將所有數(shù)據(jù),
表示在散點圖中如下圖所示:
![](http://www.leafw.cn/wp-content/uploads/2018/08/data.png)
很明顯我們能看出這些數(shù)據(jù)很傾向于在一條直線上徙菠,假定這條直線的函數(shù)為,則對于每條數(shù)據(jù)計算的差值為
,要使得這個函數(shù)即我們所說的假設(shè)函數(shù)與實際值誤差最小,則是要每條數(shù)據(jù)的誤差值之和最小郁岩,通常我們會求其差值平方和并除以總樣本數(shù)的2倍婿奔,即
,令J(
,
) =
,則我們的目標其實就是求得函數(shù)J(
,
)最小時的
,
的值,函數(shù)J(
,
)就是所謂的代價函數(shù).
為了更方便理解代價函數(shù)驯用,我們首先從簡單的情形去分析脸秽,假定,則假設(shè)函數(shù)
蝴乔,則此時的代價函數(shù)為
。舉個例子驮樊,目前有一組數(shù)據(jù)(0薇正,0),(1囚衔,1)挖腰,(2,2)练湿,(3猴仑,3),
![](http://www.leafw.cn/wp-content/uploads/2018/08/simple.png)
很明顯我們知道肥哎, 當
![](http://www.leafw.cn/wp-content/uploads/2018/08/simple_cost.png)
剛剛說過要求的最合適的假設(shè)函數(shù)即要求的代價函數(shù)最小時的,
的值,即圖中的最低點翰蠢,很明顯這里是
的時候项乒。
然而在實際狀況中是很少遇到上述所說的的情況的,這時候的代價函數(shù)的圖像依靠簡單的平面坐標系已經(jīng)無法畫出來了梁沧,因為存在兩個自變量檀何,因此這里需要畫出它的三維圖像,上述數(shù)據(jù)我試了下畫出來的圖不是很方便看趁尼,因此我這里使用第二周課程的課后習題數(shù)據(jù)來做例子了埃碱,數(shù)據(jù)集及代價函數(shù)如圖:
![](http://www.leafw.cn/wp-content/uploads/2018/08/diandiandian.jpg)
![](http://www.leafw.cn/wp-content/uploads/2018/08/3dd.jpg)
通過此圖我們依然很難找到合適的代價函數(shù)的取值點,因此我們需要通過另一種圖酥泞,即等高線圖來尋找合適的取值:
![](http://www.leafw.cn/wp-content/uploads/2018/08/denggao.jpg)
上述等高線圖由多個圈組成砚殿,在同一個圈上的點值相同,從外到內(nèi)芝囤,值是越來越小的似炎。圖中×標記的點即代價函數(shù)最小的點的取值,這里是通過計算的來的悯姊,其中求得的結(jié)果大約為,
,計算方法后文中我會解釋羡藐。