簡談Linear Regression

要不要點緊吶

20天沒發(fā)文章了,罪過罪過。

深夜了帘腹,就簡單寫一下今天了解到的一點關于Linear Regression的內容。

什么是Linear Regression聘萨,具體怎么Regression竹椒,什么θ0 + θ1x1 + θ2x2,什么梯度下降的米辐,(包括下圖中1/m∑(...)x是怎么來的)沒什么意思胸完,就不再贅述。

稍微需要注意的是下圖中所示的 θ是如何在訓練中被更新的翘贮,也就是梯度下降的具體公式赊窥。


看上去每一個 θ的更新方式都相同,只有細微的差別狸页,具體是在求1/2m∑(...)2這個式子對不同的 θ進行偏導時的不同锨能,對哪個 θ求偏導,那個 θ的系數就會留下來芍耘,會微積分的同學們都應該明白址遇。

而在實際情況中,訓練集中的各種特征的特征值范圍一般是不同的斋竞,例如預測房屋價格中倔约,房屋面積的值的范圍可能在1到1000,房屋年齡卻僅僅是1到10坝初,這樣會造成什么樣的情況呢浸剩,見下圖。



繪圖水平有限鳄袍,但是意思到位了绢要,在上述房價預測的例子中有兩個特征,取值范圍相差很遠拗小,可以想象重罪,在θ與這2個特征運算的過程中,房屋面積所占的比重遠遠大于范圍只有1到10的房屋年齡。換句話說蛆封,假設初始的θ為1左右唇礁,乘以1000的影響遠遠大于乘以10的影響。如上圖惨篱,橫縱坐標為兩個特征對應的兩個θ盏筐,圖像為房價預測模型的cost function。圖中紅線表示出梯度下降進度砸讳,可想而知琢融,這樣情況下的梯度下降,進度很慢簿寂。因此這里引出一個叫做Feature Scaling的方法—— 特征縮放漾抬, 簡單來說就是把輸入減去所有輸入的平均值 ,除以輸入值的范圍常遂。從而將不同特征的不同輸入值纳令,全都框在一個差不多的范圍之中。
例如上述1到10的房屋年齡克胳,如果所有值的平均為7年平绩,則將所有的房屋年齡減7,再除以房屋年齡的范圍漠另,1到10年捏雌,則為(10 - 1)。最后的結果是笆搓,(x - 7 )/ (10 - 1) 性湿。

接下來,還是有關梯度下降满败,在正常情況下肤频,cost function的值在每輪迭代都會下降。也就是說如果某一輪或某幾輪或斷斷續(xù)續(xù)地總是上升算墨,就說明訓練一定是出了問題着裹。

看下邊圖中左邊的兩個平面直角坐標系,都是cost function上升或升降夾雜的情況米同,再看右邊的那個坐標系,從右下角的紅點開始進行梯度下降摔竿,可是邁的步子太大面粮,一步走了很遠,不僅沒有下降反而上升了继低,這樣一步一步的熬苍,反而越訓練cost function的值越大。所以怎么辦呢,當然是把步子邁小一點柴底。因此我們把learning rate改小婿脸。

而大家也知道,步子太小柄驻,走得就很慢狐树,所以找一個合適的learning rate也是很必要的事情。這需要在實踐中得到經驗鸿脓。我認為抑钟,先要找一個可以正常梯度下降的最大的learning rate,這樣首先可以保證梯度可以正常地下降野哭,其次訓練速度也不會慢在塔;但是這樣意味著無法接近到cost function的最小值。在此時梯度逐漸收斂時拨黔,減小learning rate蛔溃,繼續(xù)訓練,然后收斂篱蝇,然后減小learning rate...循環(huán)往復贺待。最終會接近cost function的最小值(同學們,我這加粗部分說的對不對态兴,你們關于學習率的經驗請分享一下吧)
吳恩達也介紹了相關經驗狠持,他是從0.001,0.003瞻润,0.01喘垂,0.03笆檀,...滑进,0.3,1這樣3倍一提升來尋找learning rate悼尾,可以作為實戰(zhàn)中的參考傻铣。

慢著章贞,等等,此時我好像反應過來一些什么非洲,求cost function的最小值鸭限?最小值怎么求,不應該是一階導等于0嗎两踏?讓一階導等于0的θ不就是我們想要的θ嗎败京,還辛苦的梯度下降干啥。

確實梦染,這種方式可以求出來我們要的θ赡麦,并且連求一階導的功夫都省了朴皆,下邊公式可以直接求出來θ。他叫做Normal Equation(標準方程)泛粹。


(其中X是第一列為1遂铡,從第2列起為所有特征值組成的矩陣,就是θ0x0 + θ1x1 + θ2x2中[x0晶姊,x1扒接,x2]這樣的矩陣,x0為全1帽借,Y是label組成的矩陣)

并且這樣求θ都不用上邊講的Feature Scaling呢珠增。

這東西這么好還用梯度下降干啥呢?它真的就是最好的嗎砍艾,請看下表:


從第3行的時間復雜度我們可以看出一些端倪蒂教。在n不大的時候,用上邊的公式確實不錯脆荷。當n也就是特征的數量很大的時候凝垛,Normal Equation的n3的“威力”就會顯現出來了。速度慢蜓谋。

In practice, when n exceeds 10,000 it might be a good time to go from a normal solution to an iterative process.

然而學過線性代數的同學們都知道梦皮,并不是任何一個矩陣都是可逆的,如果一個矩陣不可逆桃焕,Normal Equation的逆矩陣就沒法求剑肯,這個方法也就不能用了。雖然說計算是可以用捷徑計算出來的观堂,見下邊英文...(注:octave類似matlab)

When implementing the normal equation in octave we want to use the 'pinv' function rather than 'inv.' The 'pinv' function will give you a value of θ even if XTX is not invertible.
就是說在octave里編程計算時让网,用pinv函數代替inv函數求逆,就算是不可逆矩陣师痕,也能求出來溃睹。但是是偽逆。

對于無法求逆的矩陣胰坟,一般來說有以下辦法:
雖然說學過線性代數因篇,大部分其實也還給了老師,什么有逆矩陣的充要條件啊笔横,誰還記得竞滓。但是自己想一想,也能有個八九不離十吹缔。例如我的數據集中存在如下兩種特征虽界,平方米面積,平方英尺面積涛菠。這兩個分明就是可以進行換算的,遠看是兩個特征,近看還是兩個特征俗冻,實際上是同一個特征的情況礁叔。這種情況是不是就對應著矩陣中存在線性相關?所以說解決辦法也很簡單迄薄,刪除其中一個特征就好了琅关。
還有一種情況,特征數量多讥蔽,多于訓練樣本數量涣易。同學們想想,我用10條樣本擬合出100個特征冶伞,這可能嗎新症?所以還是刪除一些作用不大的特征吧。我記得在之前哪篇文章里講過篩選特征來著响禽?那個信息增益徒爹?

好了,太晚了芋类,睡了隆嗅。

最后,文章首尾呼應侯繁,強烈推薦一部網劇胖喳,《河神》

參考資料:吳恩達機器學習

如果你也喜歡機器學習,并且也像我一樣在ML之路上努力贮竟,請關注我丽焊,我會進行不定期更新,總有一些可以幫到你坝锰。

部分圖片來自網絡粹懒,部分本人繪制

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市顷级,隨后出現的幾起案子凫乖,更是在濱河造成了極大的恐慌,老刑警劉巖弓颈,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件帽芽,死亡現場離奇詭異,居然都是意外死亡翔冀,警方通過查閱死者的電腦和手機导街,發(fā)現死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來纤子,“玉大人搬瑰,你說我怎么就攤上這事款票。” “怎么了泽论?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵艾少,是天一觀的道長。 經常有香客問我翼悴,道長缚够,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任鹦赎,我火速辦了婚禮谍椅,結果婚禮上,老公的妹妹穿的比我還像新娘古话。我一直安慰自己雏吭,他們只是感情好,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布煞额。 她就那樣靜靜地躺著思恐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪膊毁。 梳的紋絲不亂的頭發(fā)上胀莹,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天,我揣著相機與錄音婚温,去河邊找鬼描焰。 笑死,一個胖子當著我的面吹牛栅螟,可吹牛的內容都是我干的荆秦。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼力图,長吁一口氣:“原來是場噩夢啊……” “哼步绸!你這毒婦竟也來了?” 一聲冷哼從身側響起吃媒,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤瓤介,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后赘那,有當地人在樹林里發(fā)現了一具尸體刑桑,經...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年募舟,在試婚紗的時候發(fā)現自己被綠了祠斧。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡拱礁,死狀恐怖琢锋,靈堂內的尸體忽然破棺而出辕漂,到底是詐尸還是另有隱情,我是刑警寧澤吩蔑,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布钮热,位于F島的核電站,受9級特大地震影響烛芬,放射性物質發(fā)生泄漏。R本人自食惡果不足惜飒责,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一赘娄、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧宏蛉,春花似錦遣臼、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至嗅义,卻和暖如春屏歹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背之碗。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工蝙眶, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人褪那。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓幽纷,卻偏偏與公主長得像,于是被迫代替她去往敵國和親博敬。 傳聞我的和親對象是個殘疾皇子友浸,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內容