線性回歸(1)——起源

幾乎所有的科學(xué)觀察都著了魔似的向平均值回歸——《女士品茶》

什么是線性回歸

線性回歸這個概念是由達(dá)爾文的表弟高爾頓在研究父代與子代身高關(guān)系的時候提出的娃惯,我第一次看到這四個字的時候,心中暗罵减细,這起的什么破名豫缨,一點(diǎn)都不直觀。什么叫線性?什么叫回歸?你在進(jìn)行什么騷操作啊淹朋。然而這兩個概念其實(shí)準(zhǔn)確表達(dá)了該算法的核心思想,只要解釋明白了這兩個概念列林,我們就搞明白了線性回歸。

線性

高爾頓搜集了1078對父親及其兒子的身高數(shù)據(jù)酪惭,用于研究其兩者的關(guān)系希痴,他畫出了該組數(shù)據(jù)的散點(diǎn)圖,發(fā)現(xiàn)這些樣本點(diǎn)看起來分布在某條直線的周圍春感,因此他使用一條直線來擬合這些樣本點(diǎn)砌创。

父子身高圖

這也就是線性最初的意思:所有的樣本點(diǎn)可以近似的用一條直線來表示。

回歸

高爾頓在畫出直線后鲫懒,對這些數(shù)據(jù)進(jìn)行了深入的分析嫩实,最終發(fā)現(xiàn)了一個很有趣的現(xiàn)象。他發(fā)現(xiàn)當(dāng)父親高于平均身高時窥岩,他們的兒子更可能比他矮甲献;而當(dāng)父親矮于平均身高時,他們的兒子身高更可能比他高颂翼。他稱這種現(xiàn)象為回歸現(xiàn)象晃洒。

平均身高圖

參考上圖:

只看x軸,我們可以簡單的估計(jì)一下朦乏,父親們的平均身高大概在68左右球及。然后看上圖中標(biāo)黃的部分,身高為64左右的父親們呻疹,他們的兒子身高均值為67.1吃引,普遍比父親要高,向著均值68的方向貼近刽锤。再看綠色部分镊尺,身高為72左右的父親們,兒子們的身高均值為70.9并思,普遍比父親矮鹅心,向著均值68的方向貼近。

高爾頓將這種子代身高向著父輩的平均身高靠攏的現(xiàn)象稱為回歸效應(yīng)纺荧。他還說旭愧,如果不向著均值的方向回歸颅筋,高個子的后代更高,矮的更矮的話输枯,用不了幾代议泵,我們?nèi)祟惥涂梢苑至殉蓛蓚€種族——巨人族和矮人族了。不僅身高如此桃熄,

幾乎所有的科學(xué)觀察都著了魔似的向平均值回歸先口,這個世界觀可以幫我們理解一些荒唐的問題:人類的身高不可能一直越來越高。人類的舉重能力不可能越來越大瞳收〉锞基因突變不會一直累積,所以變種人不會出現(xiàn)螟深。行尸走肉里那種全球瘟疫不會發(fā)生谐宙。帥氣的爺爺和爸爸,不一定有帥氣的孫子界弧。富不過三代凡蜻。大自然(或者人類社會)以其神秘的力量和節(jié)奏調(diào)節(jié)著地球萬物的秩序」富——機(jī)器學(xué)習(xí)入門公眾號

和機(jī)器學(xué)習(xí)有什么關(guān)系划栓?

最后高爾頓一通計(jì)算得到了擬合直線的表達(dá)式:
$$
y=33.73+0.516x
$$
其中x代表父輩的身高。

戲說:高爾頓把(33.73条获,0.516)這一對數(shù)字賣給算命先生A忠荞,告訴A,以后你也別算命了帅掘,支個攤子钻洒,叫算高先生,幫別人算孩子以后能長多高吧锄开。讓顧客告訴你他們的身高素标,然后代到上面的式子里算一下,結(jié)果就是他們孩子的身高萍悴。別說头遭,這樣算出來的結(jié)果雖然不百分百準(zhǔn)確,但是八九不離十癣诱。因此A先生的算高攤子備受好評计维。

上面這個瞎編的故事,就是線性回歸與機(jī)器學(xué)習(xí)的關(guān)系撕予。線性回歸是一種機(jī)器學(xué)習(xí)的方法鲫惶,可以根據(jù)訓(xùn)練集(高爾頓收集的1078組身高數(shù)據(jù))訓(xùn)練得到一組參數(shù)(33.73,0.516)实抡,之后利用該參數(shù)來預(yù)測結(jié)果(A先生做的事)欠母。所以線性回歸的根本問題就是通過已有訓(xùn)練集的數(shù)據(jù)欢策,得到線性模型的一組參數(shù)。

總結(jié)

我們總說機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)赏淌,機(jī)器到底是從什么地方踩寇,學(xué)到了什么呢?線性回歸這個特別基本的方法就很好的回答了這個問題——從一堆樣本點(diǎn)里面學(xué)到了一組參數(shù)六水。我想這種直觀的特點(diǎn)可以解釋為什么幾乎所有機(jī)器學(xué)習(xí)的書和教程上手的第一個算法是線性回歸俺孙。

最后,本篇文章是從我個人的博客上面搬運(yùn)過來的掷贾,主要參照reference中的文章書寫而來睛榄。簡書的公式功能實(shí)在不好用,后面幾天改天再搬運(yùn)吧想帅。
本人水平有限场靴,機(jī)器學(xué)習(xí)也是才入門的水平,難免有謬誤博脑,歡迎大家指正憎乙。

Reference

《線性回歸:機(jī)器學(xué)習(xí)史上最大命名錯案》——機(jī)器學(xué)習(xí)入門微信公眾號

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末票罐,一起剝皮案震驚了整個濱河市叉趣,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌该押,老刑警劉巖疗杉,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異蚕礼,居然都是意外死亡烟具,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進(jìn)店門奠蹬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來朝聋,“玉大人,你說我怎么就攤上這事囤躁〖胶郏” “怎么了?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵狸演,是天一觀的道長言蛇。 經(jīng)常有香客問我,道長宵距,這世上最難降的妖魔是什么腊尚? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮满哪,結(jié)果婚禮上婿斥,老公的妹妹穿的比我還像新娘劝篷。我一直安慰自己,他們只是感情好受扳,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布携龟。 她就那樣靜靜地躺著,像睡著了一般勘高。 火紅的嫁衣襯著肌膚如雪峡蟋。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天华望,我揣著相機(jī)與錄音蕊蝗,去河邊找鬼。 笑死赖舟,一個胖子當(dāng)著我的面吹牛蓬戚,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播宾抓,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼子漩,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了石洗?” 一聲冷哼從身側(cè)響起幢泼,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎讲衫,沒想到半個月后缕棵,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡涉兽,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年招驴,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片枷畏。...
    茶點(diǎn)故事閱讀 39,764評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡别厘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出拥诡,到底是詐尸還是另有隱情触趴,我是刑警寧澤,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布袋倔,位于F島的核電站雕蔽,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏宾娜。R本人自食惡果不足惜批狐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧嚣艇,春花似錦承冰、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至贰谣,卻和暖如春娜搂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背吱抚。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工百宇, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人秘豹。 一個月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓携御,卻偏偏與公主長得像,于是被迫代替她去往敵國和親既绕。 傳聞我的和親對象是個殘疾皇子啄刹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評論 2 354

推薦閱讀更多精彩內(nèi)容