106-商業(yè)數(shù)據(jù)分析之線性回歸

1西疤、商業(yè)數(shù)據(jù)分析簡介

分析是一門使用數(shù)據(jù)構(gòu)建模型的科學(xué)，這些模型可為公司夯缺、機(jī)構(gòu)和個(gè)人的決策增加價(jià)值蚤氏。

唯一客觀的事實(shí)是數(shù)據(jù)。
模型的作用就是幫助我們從數(shù)據(jù)中挖掘有用的信息踊兜，以幫助管理者作出合理的決策竿滨。

大數(shù)據(jù)的特點(diǎn)（6V）：
VOLUME：數(shù)據(jù)量大，一般到PB級(jí)
VARIETY：數(shù)據(jù)類型多
VELOCITY：數(shù)據(jù)產(chǎn)生速度快
VARACITY：數(shù)據(jù)可信
VALUE：數(shù)據(jù)具有商業(yè)價(jià)值
VARIABILITY：具備使用和格式化大數(shù)據(jù)的方式

結(jié)論：大數(shù)據(jù)分析能夠賦予企業(yè)和個(gè)人強(qiáng)大的競爭優(yōu)勢捏境；大數(shù)據(jù)分析對(duì)企業(yè)的成功至關(guān)重要于游。

2、線性回歸

2.1 基本假設(shè)

（1）自變量相互線性獨(dú)立垫言；
（2）常數(shù)方差或同方差及不相關(guān)假定贰剥；在此條件下可以得到關(guān)于回歸系數(shù)的最小二乘估計(jì)及誤差的方差估計(jì)的一些重要性質(zhì)，如回歸系數(shù)的最小二乘估計(jì)是回歸系數(shù)的最小方差線性無偏估計(jì)等筷频。
（3）正態(tài)分布假定蚌成；在此條件下可得到關(guān)于回歸系數(shù)的最小二乘估計(jì)及誤差的方差估計(jì)的進(jìn)一步結(jié)果，如它們分別是回歸系數(shù)的最小方差無偏估計(jì)等截驮，并且可以進(jìn)行回歸系數(shù)的顯著性檢驗(yàn)及區(qū)間估計(jì)笑陈。

2.2回歸系數(shù)的估計(jì)

估計(jì)參數(shù)的方法有最小二乘法。

2.3回歸系數(shù)的計(jì)算

梯度下降法：通過迭代方式逐步得到最優(yōu)的結(jié)果葵袭。

2.4模型的評(píng)價(jià)

除了受自變量x的影響外涵妥，因變量y還受許多其他變量的影響，這些其他變量統(tǒng)稱為殘差變量坡锡，殘差變量包含了除x以外其他所有變量對(duì)y的效應(yīng)蓬网。
總平方和=回歸平方和+殘差平方和
使用回歸平方和占總平方和的比值來反映自變量x對(duì)因變量y的解釋能力窒所，這就是判定系數(shù)R²。
判定系數(shù)R²說明自變量x相對(duì)于其他變量(殘差變量)來說對(duì)因變量y的影響有多重要帆锋，而且說明了這些點(diǎn)離回歸直線越近吵取，殘差平方和越小。

2.5模型的參數(shù)檢驗(yàn)

由于抽樣的隨機(jī)性锯厢，通過樣本得到的回歸系數(shù)會(huì)與真實(shí)值有一定的差距皮官。
要將樣本數(shù)據(jù)得到的結(jié)論推廣到總體，需要通過檢驗(yàn)總體中因變量y和自變量x之間沒有相關(guān)性的零假設(shè)來實(shí)現(xiàn)实辑。

t檢驗(yàn)：對(duì)單個(gè)總體參數(shù)的假設(shè)檢驗(yàn)捺氢，如系數(shù)1=0
F檢驗(yàn)：對(duì)回歸模型整體顯著性的假設(shè)檢驗(yàn)，如系數(shù)1=0剪撬，系數(shù)2=0……系數(shù)n=0

3摄乒、回歸模型的選擇

模型并不是自變量越多越好，而是盡可能少而精残黑。在一個(gè)現(xiàn)象的幾個(gè)合理的解釋中馍佑，最簡單的是最好的(奧卡姆剃刀原則)。
△不必要的自變量會(huì)增加估計(jì)噪聲梨水。
△如果自變量在回歸模型中全部都使用的話拭荤，就會(huì)出現(xiàn)多重共線性等問題。
當(dāng)比較潛在模型時(shí)可以使用一些方法做出選擇：
1冰木、基于標(biāo)準(zhǔn)的選擇
2穷劈、基于假設(shè)檢驗(yàn)的選擇
3、收縮方法：嶺(Ridge)回歸踊沸， Lasso回歸

3.1基于標(biāo)準(zhǔn)的選擇

兩種模型選擇標(biāo)準(zhǔn)：
1歇终、R_a²統(tǒng)計(jì)量，在回歸模型的殘差平方和( Residual Sum of Squares, RSS)和模型復(fù)雜度k之間的平衡逼龟。
2评凝、AIC (Akaike Information Criterion)赤池信息標(biāo)準(zhǔn)，間接地刻畫了估計(jì)模型和真實(shí)模型之間的距離腺律，所以我們將選擇最小化 AIC 的模型奕短。AIC 在模型選擇中為擬合性和簡潔性提供了平衡。

由于向模型添加變量會(huì)減少RSS匀钧，因而會(huì)增加R²翎碑，所以R²并不是一個(gè)好的標(biāo)準(zhǔn)，它總會(huì)選擇最大可能的模型之斯。R_a²（修正后R²）通過引進(jìn)自變量數(shù)量k日杈，對(duì)自變量增加進(jìn)行了約束。
可以從擬合優(yōu)度的角度在一系列回歸模型中選擇R_a²最大的回歸模型作為最優(yōu)模型。

3.2基于假設(shè)檢驗(yàn)的選擇

基于p值的三種假設(shè)檢驗(yàn)選擇方法：向后消除莉擒，向前選擇酿炸，逐步回歸
向后消除 (backward elimination) 是所有變量選擇過程中最簡單的一種
? 從包含所有自變量的模型開始，刪除大于閾值 acrit 的最高p值的一個(gè)自變量涨冀；
? 重新擬合模型填硕，并刪除剩余變量中的最不顯著的自變量，刪除標(biāo)準(zhǔn)依然是其p值大于acrit鹿鳖；
? 重復(fù)進(jìn)行該過程扁眯；直至所有不顯著的自變量被刪除，從而完成變量選擇過程獲得最佳模型栓辜。
向前選擇（forward selection）是向后選擇方法的相反過程恋拍。
逐步回歸（stepwise regression）是向后消除和向前選擇的組合
? 在每個(gè)階段可以添加或刪除一個(gè)變量，使得變量有進(jìn)有出藕甩；
? 解決了在流程早期添加或刪除的變量，在后來不能刪除或添加的矛盾周荐；
? 實(shí)際上狭莱，逐步回歸法并不是一個(gè)新的回歸方法，所用到的參數(shù)估計(jì)方法都是之前介紹的概作，只是從眾多變量中選擇出最優(yōu)模型的一套方法腋妙。

3.3收縮方法：嶺回歸、Lasso回歸

通過對(duì)回歸系數(shù)進(jìn)行收縮讯榕，在盡量減少自變量的基礎(chǔ)上獲得好的模型骤素。
嶺回歸（Ridge Regression）由 Hoerl 和 Kennard 于1970年提出，是一種有偏估計(jì)愚屁，是對(duì)最小二乘法（無偏估計(jì)）的改進(jìn)济竹。嶺回歸（Ridge Regression）通過添加系數(shù)的L₂范數(shù)懲罰項(xiàng)來修正殘差平方和。
選擇好的 $\gamma$ 或 t 值的原則:

各回歸系數(shù)的嶺估計(jì)基本穩(wěn)定霎槐；
最小二乘估計(jì)的回歸系數(shù)符號(hào)不合理時(shí)送浊，嶺估計(jì)參數(shù)的符號(hào)變得合理；
回歸系數(shù)沒有不合乎實(shí)際意義的絕對(duì)值丘跌；
相對(duì)最小二乘估計(jì)的殘差平方和（RSS）增加不太多;
5.自變量矩陣存在共線性袭景，使得 $\beta$ 的普通最小二乘估計(jì)不穩(wěn)定時(shí)，嶺回歸特別有效闭树。

Lasso回歸通過添加系數(shù)的L₁范數(shù)懲罰項(xiàng)來修正殘差平方和耸棒。
1.對(duì)于Lasso，中等值的 $\gamma$ 會(huì)使得很多 $\beta_j$ 趨于0报辱；
2.當(dāng)相信因變量可以被少數(shù)自變量解釋与殃，而其余自變量沒有影響時(shí)，使用Lasso 是最合適的；
3.Lasso可以被視為一種變量選擇方法奈籽；
4.嶺回歸沒有消除任何變量饥侵，它只是讓 $\beta_j$ 變小了一點(diǎn)。

最后編輯于：2021.07.08 22:52:35

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末衣屏，一起剝皮案震驚了整個(gè)濱河市躏升，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌狼忱，老刑警劉巖膨疏，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異钻弄，居然都是意外死亡佃却，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門窘俺，熙熙樓的掌柜王于貴愁眉苦臉地迎上來饲帅，“玉大人，你說我怎么就攤上這事瘤泪≡畋茫” “怎么了？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我江兢，道長，這世上最難降的妖魔是什么惶洲？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮膳犹，結(jié)果婚禮上恬吕，老公的妹妹穿的比我還像新娘。我一直安慰自己镣奋，他們只是感情好币呵，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著侨颈，像睡著了一般余赢。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上哈垢，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說
那天妻柒，我揣著相機(jī)與錄音，去河邊找鬼耘分。笑死举塔，一個(gè)胖子當(dāng)著我的面吹牛绑警，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播央渣，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼计盒，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了芽丹？” 一聲冷哼從身側(cè)響起北启，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎拔第，沒想到半個(gè)月后咕村，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡蚊俺，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年懈涛，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泳猬。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡批钠，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出暂殖，到底是詐尸還是另有隱情价匠，我是刑警寧澤，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布呛每，位于F島的核電站，受9級(jí)特大地震影響坡氯，放射性物質(zhì)發(fā)生泄漏晨横。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一箫柳、第九天我趴在偏房一處隱蔽的房頂上張望手形。院中可真熱鬧，春花似錦悯恍、人聲如沸库糠。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案涮毫，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽瞬欧。三九已至，卻和暖如春罢防，著一層夾襖步出監(jiān)牢的瞬間艘虎，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工咒吐，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留野建，地道東北人属划。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像候生，于是被迫代替她去往敵國和親同眯。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345