什么是線性回歸勉抓?
在監(jiān)督學習(supervised learning)中:
- x表示輸入值蛹尝;
- y表示輸出值(也是預測值)痢虹;
- (x(i), y(i))被稱為訓練樣本鸵闪;
- 一組(x(i), y(i)),i=1概疆,...,m逗威,被稱為訓練集(training set)
注意:這里的上標i指的是序號,而與取冪無關
為了更直觀一點岔冀,下面是監(jiān)督學習的流程圖(其中h——<b>hypothesis</b>是預測算法生成的線性式):
Andrew舉了個房價預測的栗子(一個回歸的預測):
這里的房價可以認為是連續(xù)的凯旭,所以可以模擬一條直線來根據房間面積來預測房價,這就叫線性回歸使套。
但是如果y只是一簇一簇離散的數據罐呼,比如根據房屋面積判斷是別墅還是平房,那么這樣就叫做分類問題侦高。
Cost Function(誤差函數)
我們用cost function來評估hypothesis的準確性弄贿,這里y(i)是輸入為x(i)時的真實值。有時候也稱為“Squared error function”或者“Mean squared error”
cost function如何得來矫膨?
- 在這里由于誤差項可正可負差凹,相加時會正負抵消,這樣就無法區(qū)分沒有偏差和政府偏差相抵消時的情況侧馅。因此危尿,我們使用誤差的平方和,并令其最小馁痴,這樣的方法也叫做最小平方發(fā)(Least Squares Method)谊娇。
- 后面我們就會知道為什么除的是2m而不是m,這里簡單說一下:
除以2m罗晕,是用來簡化其數據济欢,make it easy。