Linear Model

ML系列文章先引入數(shù)學(xué)理論和代碼實(shí)現(xiàn)結(jié)合你雌。

一、數(shù)學(xué)理論篇

引言:

數(shù)值型自變量和數(shù)值型新變量之間關(guān)系分析方法就是相關(guān)與回歸分析。是處理變量之間關(guān)系的一種統(tǒng)計(jì)方法超凳。兩個(gè)變量之間就是簡(jiǎn)單相關(guān)與簡(jiǎn)單回歸分析;兩個(gè)及以上是多元相關(guān)與多元回歸分析耀态。 如果從變量關(guān)系形態(tài)上又分為線性相關(guān)與線性回歸和非線性相關(guān)非線性回歸轮傍。

描述

當(dāng)然如何對(duì)相關(guān)關(guān)系描述與測(cè)度呢(是否有關(guān)系,有什么關(guān)系首装,關(guān)系強(qiáng)度创夜,樣本能否代表總體變量關(guān)系):

  • 1散點(diǎn)圖
  • 2相關(guān)系數(shù)(correlation coefficient) 樣本的記做r,總體的記做ρ
線性相關(guān)系數(shù)或者Pearson相關(guān)系數(shù)

注:r僅僅是線性關(guān)系的度量仙逻,可能存在非線性關(guān)系驰吓,r=0不能得出不存在相關(guān)關(guān)系,要結(jié)合散點(diǎn)圖分析系奉,也不一定意味著x與y一定有因果關(guān)系

顯著性檢驗(yàn)(t分布)

因?yàn)榭傮w相關(guān)系數(shù)ρ未知棚瘟,用樣本相關(guān)系數(shù)r作為近似值會(huì)受到抽象波動(dòng)影響所以要進(jìn)行顯著性檢驗(yàn):
顯著性檢驗(yàn)方法

回歸模型

描述因變量y如何依賴自變量x和誤差項(xiàng)?的方程為回歸方程(regression model)
y = β0 + β1x + ? (一元線性回歸模型也稱為理論回歸模型)
注:誤差項(xiàng)? 是隨機(jī)變量,E(? )=0,對(duì)所有的x值喜最,? 的方差σ^2都相等偎蘸,服從正態(tài)分布。 給定任何一個(gè)x瞬内,y都服從期望值為β0+β1*x迷雪,方差為σ^2的正態(tài)分布。

估計(jì)回歸方程

方程:
對(duì)于x和y的n對(duì)觀測(cè)值虫蝶,用描述的直線就很多章咧,這時(shí)就需要引入一個(gè)原則來判定哪條代表兩個(gè)變量之間關(guān)系。 這個(gè)方法就是最小二乘法(method of least squares)

區(qū)分

  • 回歸模型是對(duì)統(tǒng)計(jì)關(guān)系進(jìn)行定量描述的一種數(shù)學(xué)模型.
  • 回歸方程是對(duì)變量之間統(tǒng)計(jì)關(guān)系進(jìn)行定量描述的一種數(shù)學(xué)表達(dá)式.指具有相關(guān)的隨機(jī)變量和固定變量之間關(guān)系的方程.主要有回歸直線方程.
  • 當(dāng)幾個(gè)變量有多重共線性時(shí),多元回歸分析得出的回歸方程,靠手算精確值計(jì)算量太大,所以只能得出估計(jì)值

回歸直線的擬合優(yōu)度(goodness of fit)

  • 判定系數(shù)是對(duì)擬合優(yōu)度的度量
    需要了解概念SST(總平方和), SSR(回歸平方和)能真,SSE(殘差平方和), R^2 (判定系數(shù))= SSR/SST R^2∈[0,1]
  • 估計(jì)標(biāo)準(zhǔn)誤差
    了解的概念:估計(jì)標(biāo)準(zhǔn)誤差(standard error of estimate)赁严,是均方殘差(MSE)的平方和.MSE是度量實(shí)際觀測(cè)值與回歸觀測(cè)值的差異程度扰柠。

回歸分析的顯著性檢驗(yàn) (F分布)

回歸分析以及顯著性檢驗(yàn)
注:F檢驗(yàn)是檢驗(yàn)總體回歸關(guān)系的顯著性,而t檢驗(yàn)則是各個(gè)回歸系數(shù)的顯著性

用回歸方程預(yù)測(cè)

  • 置信區(qū)間估計(jì):對(duì)x的一個(gè)給定值x0疼约,求y的平均值的區(qū)間估計(jì)
  • 期望估計(jì)值標(biāo)準(zhǔn)差的估計(jì)量的計(jì)算公式:自己找一找
  • 預(yù)測(cè)區(qū)間估計(jì):對(duì)x的一個(gè)給定值x0卤档,求y的一個(gè)個(gè)別值的區(qū)間估計(jì)
  • 個(gè)別估計(jì)值的標(biāo)準(zhǔn)差的估計(jì)量的計(jì)算公式:自己找一找

殘差分析

確定假定的 ?是否成立的方法之一是殘差分析

  • 殘差(residual):因變量的觀測(cè)值與根據(jù)估計(jì)的回歸方程求的預(yù)測(cè)值之間的差。反映了用估計(jì)的回歸方程去預(yù)測(cè)yi而引起的誤差程剥。
  • 殘差計(jì)算公式:略
  • 標(biāo)準(zhǔn)化殘差(standardized residual):殘差除以它的標(biāo)準(zhǔn)差的數(shù)值,也稱為Pearson殘差或者半學(xué)生化殘差(semi-studentized residuals) 計(jì)算公式:略 ,它是殘差的標(biāo)準(zhǔn)化估計(jì)劝枣,因?yàn)榧俣?誤差項(xiàng)?服從正態(tài)分布成立,那么標(biāo)準(zhǔn)化殘差的分布也服從正態(tài)分布织鲸。

引申多元線性回歸

前面說的是一元舔腾,可以引申為多遠(yuǎn)是一樣的,只是多了幾個(gè)變量搂擦,概念和它的意義和上面一樣稳诚。因?yàn)樽宰兞慷啵赡芫蜁?huì)存在多重共線性的問題(自變量之間存在相關(guān)關(guān)系)瀑踢。

  • 判定
    計(jì)算各對(duì)變量之間的相關(guān)關(guān)系扳还。

  • 處理
    這個(gè)問題有點(diǎn)大,可以后續(xù)說明丘损,讀者可以先自行了解普办。一般來說就是剔除,使自變量盡可能不相關(guān)

  • 變量選擇
    因?yàn)樵诮⒒貧w模型的時(shí)候徘钥,不能將所有自變量都引進(jìn)入模型衔蹲,所以需要一定篩選。

    • 向前選擇
    • 向后剔除
    • 逐步回歸
    • 最優(yōu)子集
      上述相關(guān)方法讀者可以自行了解呈础。

二舆驶、編程篇

yi = βxi + α + ?i

我們假設(shè)y是用戶i每天花在網(wǎng)站上的分鐘數(shù),xi是用戶i已有的朋友數(shù)而钞,而?i是誤差項(xiàng)沙廉,我們求出alpha和beta就可以進(jìn)行預(yù)測(cè)了

#預(yù)測(cè)
def predict(alpha,beta,x_i):
    return beta * x_i + alpha
#計(jì)算誤差
def error(alpha,beta,x_i,y_i):
    return y_i - predict(alpha,beta,x_i)

單純把各個(gè)誤差加起來不是很合理,因?yàn)橛械念A(yù)測(cè)太高臼节,有的太低撬陵,相加會(huì)抵消,因此求誤差的平方和

def sum_of_squared_errors(alpha,beta,x,y):
    return sum(error(alpha,beta,x_i,y_i)**2
               for x_i, y_i in zip(x,y))

也可利用最小二乘法選擇alpha和beta网缝,使得sum_of_squared_errors 盡可能小

#利用微積分求:
def least_squares_fit(x,y):
    beta = correlation(x,y) * standard_deviation(y) / standard_deviation(x)
    alpha = mean(y) - beta* mean(x)
    return alpha,beta

用決定系數(shù)(coefficient of determination)R^2 這一指標(biāo)來評(píng)估模型對(duì)數(shù)據(jù)的擬合效果

def total_sum_of_squares(y):
    return sum(v**2 for v in  de_mean(y))
def r_squared(alpha,beta,x,y):
    return 1.0 - (sum_of_squared_errors(alpha,beta,x,y) / total_sum_of_squares(y))

利用梯度下降法:

定義個(gè)theta = [alpha,beta]
def squared_error(x_i,y_i,theata):
   alpha,beta = theta
   return error(alpha,beta,x_i,y_i) ** 2   
def squared_error_gradient(x_i,y_i,theta):
   alpha, beta = theta
   return [-2*error(alpha,beta,x_i,y_i),  #alpha偏導(dǎo)數(shù)
           -2*error(alpha,beta,x_i,y_i)*x_i] #beta偏導(dǎo)數(shù)

為什么選擇最小二乘法巨税?其中一個(gè)最大原因就是最大似然估計(jì)(maximum likelihood estimation)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市粉臊,隨后出現(xiàn)的幾起案子草添,更是在濱河造成了極大的恐慌,老刑警劉巖扼仲,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件远寸,死亡現(xiàn)場(chǎng)離奇詭異抄淑,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)驰后,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門肆资,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人倡怎,你說我怎么就攤上這事迅耘〖妫” “怎么了监署?”我有些...
    開封第一講書人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)纽哥。 經(jīng)常有香客問我钠乏,道長(zhǎng),這世上最難降的妖魔是什么春塌? 我笑而不...
    開封第一講書人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任晓避,我火速辦了婚禮,結(jié)果婚禮上只壳,老公的妹妹穿的比我還像新娘俏拱。我一直安慰自己,他們只是感情好吼句,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開白布锅必。 她就那樣靜靜地躺著,像睡著了一般惕艳。 火紅的嫁衣襯著肌膚如雪搞隐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,475評(píng)論 1 312
  • 那天远搪,我揣著相機(jī)與錄音劣纲,去河邊找鬼。 笑死谁鳍,一個(gè)胖子當(dāng)著我的面吹牛癞季,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播倘潜,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼绷柒,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了窍荧?” 一聲冷哼從身側(cè)響起辉巡,我...
    開封第一講書人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蕊退,沒想到半個(gè)月后郊楣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體憔恳,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年净蚤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了钥组。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡今瀑,死狀恐怖程梦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情橘荠,我是刑警寧澤屿附,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站哥童,受9級(jí)特大地震影響挺份,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜贮懈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一匀泊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧朵你,春花似錦各聘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至魂拦,卻和暖如春毛仪,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背芯勘。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工箱靴, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人荷愕。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓衡怀,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親安疗。 傳聞我的和親對(duì)象是個(gè)殘疾皇子抛杨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容