106-商業(yè)數(shù)據(jù)分析之線性回歸

1西疤、商業(yè)數(shù)據(jù)分析簡介

分析是一門使用數(shù)據(jù)構(gòu)建模型的科學(xué),這些模型可為公司夯缺、機(jī)構(gòu)和個(gè)人的決策增加價(jià)值蚤氏。

唯一客觀的事實(shí)是數(shù)據(jù)。
模型的作用就是幫助我們從數(shù)據(jù)中挖掘有用的信息踊兜,以幫助管理者作出合理的決策竿滨。

大數(shù)據(jù)的特點(diǎn)(6V):
VOLUME:數(shù)據(jù)量大,一般到PB級(jí)
VARIETY:數(shù)據(jù)類型多
VELOCITY:數(shù)據(jù)產(chǎn)生速度快
VARACITY:數(shù)據(jù)可信
VALUE:數(shù)據(jù)具有商業(yè)價(jià)值
VARIABILITY:具備使用和格式化大數(shù)據(jù)的方式

結(jié)論:大數(shù)據(jù)分析能夠賦予企業(yè)和個(gè)人強(qiáng)大的競爭優(yōu)勢捏境;大數(shù)據(jù)分析對(duì)企業(yè)的成功至關(guān)重要于游。

2、線性回歸

2.1 基本假設(shè)

(1)自變量相互線性獨(dú)立垫言;
(2)常數(shù)方差或同方差及不相關(guān)假定贰剥;在此條件下可以得到關(guān)于回歸系數(shù)的最小二乘估計(jì)及誤差的方差估計(jì)的一些重要性質(zhì),如回歸系數(shù)的最小二乘估計(jì)是回歸系數(shù)的最小方差線性無偏估計(jì)等筷频。
(3)正態(tài)分布假定蚌成;在此條件下可得到關(guān)于回歸系數(shù)的最小二乘估計(jì)及誤差的方差估計(jì)的進(jìn)一步結(jié)果,如它們分別是回歸系數(shù)的最小方差無偏估計(jì)等截驮,并且可以進(jìn)行回歸系數(shù)的顯著性檢驗(yàn)及區(qū)間估計(jì)笑陈。

2.2回歸系數(shù)的估計(jì)

估計(jì)參數(shù)的方法有最小二乘法。

2.3回歸系數(shù)的計(jì)算

梯度下降法:通過迭代方式逐步得到最優(yōu)的結(jié)果葵袭。

2.4模型的評(píng)價(jià)

除了受自變量x的影響外涵妥,因變量y還受許多其他變量的影響,這些其他變量統(tǒng)稱為殘差變量坡锡,殘差變量包含了除x以外其他所有變量對(duì)y的效應(yīng)蓬网。
總平方和=回歸平方和+殘差平方和
使用回歸平方和占總平方和的比值來反映自變量x對(duì)因變量y的解釋能力窒所,這就是判定系數(shù)R2
判定系數(shù)R2說明自變量x相對(duì)于其他變量(殘差變量)來說對(duì)因變量y的影響有多重要帆锋,而且說明了這些點(diǎn)離回歸直線越近吵取,殘差平方和越小。

2.5模型的參數(shù)檢驗(yàn)

由于抽樣的隨機(jī)性锯厢,通過樣本得到的回歸系數(shù)會(huì)與真實(shí)值有一定的差距皮官。
要將樣本數(shù)據(jù)得到的結(jié)論推廣到總體,需要通過檢驗(yàn)總體中因變量y和自變量x之間沒有相關(guān)性的零假設(shè)來實(shí)現(xiàn)实辑。

t檢驗(yàn):對(duì)單個(gè)總體參數(shù)的假設(shè)檢驗(yàn)捺氢,如系數(shù)1=0
F檢驗(yàn):對(duì)回歸模型整體顯著性的假設(shè)檢驗(yàn),如系數(shù)1=0剪撬,系數(shù)2=0……系數(shù)n=0

3摄乒、回歸模型的選擇

模型并不是自變量越多越好,而是盡可能少而精残黑。在一個(gè)現(xiàn)象的幾個(gè)合理的解釋中馍佑,最簡單的是最好的(奧卡姆剃刀原則)。
△不必要的自變量會(huì)增加估計(jì)噪聲梨水。
△如果自變量在回歸模型中全部都使用的話拭荤,就會(huì)出現(xiàn)多重共線性等問題。
當(dāng)比較潛在模型時(shí)可以使用一些方法做出選擇:
1冰木、基于標(biāo)準(zhǔn)的選擇
2穷劈、基于假設(shè)檢驗(yàn)的選擇
3、收縮方法:嶺(Ridge)回歸踊沸, Lasso回歸

3.1基于標(biāo)準(zhǔn)的選擇

兩種模型選擇標(biāo)準(zhǔn):
1歇终、Ra2統(tǒng)計(jì)量,在回歸模型的殘差平方和( Residual Sum of Squares, RSS)和模型復(fù)雜度k之間的平衡逼龟。
2评凝、AIC (Akaike Information Criterion)赤池信息標(biāo)準(zhǔn),間接地刻畫了估計(jì)模型和真實(shí)模型之間的距離腺律,所以我們將選擇最小化 AIC 的模型奕短。AIC 在模型選擇中為擬合性和簡潔性提供了平衡。

由于向模型添加變量會(huì)減少RSS匀钧,因而會(huì)增加R2翎碑,所以R2并不是一個(gè)好的標(biāo)準(zhǔn),它總會(huì)選擇最大可能的模型之斯。Ra2(修正后R2)通過引進(jìn)自變量數(shù)量k日杈,對(duì)自變量增加進(jìn)行了約束。
可以從擬合優(yōu)度的角度在一系列回歸模型中選擇Ra2最大的回歸模型作為最優(yōu)模型。

3.2基于假設(shè)檢驗(yàn)的選擇

基于p值的三種假設(shè)檢驗(yàn)選擇方法:向后消除莉擒,向前選擇酿炸,逐步回歸
向后消除 (backward elimination) 是所有變量選擇過程中最簡單的一種
? 從包含所有自變量的模型開始,刪除大于閾值 acrit 的最高p值的一個(gè)自變量涨冀;
? 重新擬合模型填硕,并刪除剩余變量中的最不顯著的自變量,刪除標(biāo)準(zhǔn)依然是其p值大于acrit鹿鳖;
? 重復(fù)進(jìn)行該過程扁眯;直至所有不顯著的自變量被刪除,從而完成變量選擇過程獲得最佳模型 栓辜。
向前選擇(forward selection)是向后選擇方法的相反過程恋拍。
逐步回歸(stepwise regression) 是向后消除和向前選擇的組合
? 在每個(gè)階段可以添加或刪除一個(gè)變量,使得變量有進(jìn)有出藕甩;
? 解決了在流程早期添加或刪除的變量,在后來不能刪除或添加的矛盾周荐;
? 實(shí)際上狭莱,逐步回歸法并不是一個(gè)新的回歸方法,所用到的參數(shù)估計(jì)方法都是之前介紹的概作,只是從眾多變量中選擇出最優(yōu)模型的一套方法腋妙。

3.3收縮方法:嶺回歸、Lasso回歸

通過對(duì)回歸系數(shù)進(jìn)行收縮讯榕,在盡量減少自變量的基礎(chǔ)上獲得好的模型骤素。
嶺回歸(Ridge Regression)由 Hoerl 和 Kennard 于1970年提出,是一種有偏估計(jì)愚屁,是對(duì)最小二乘法(無偏估計(jì))的改進(jìn)济竹。嶺回歸(Ridge Regression)通過添加系數(shù)的L2范數(shù)懲罰項(xiàng)來修正殘差平方和。
選擇好的\gamma或 t 值的原則:

  1. 各回歸系數(shù)的嶺估計(jì)基本穩(wěn)定霎槐;
  2. 最小二乘估計(jì)的回歸系數(shù)符號(hào)不合理時(shí)送浊,嶺估計(jì)參數(shù)的符號(hào)變得合理;
  3. 回歸系數(shù)沒有不合乎實(shí)際意義的絕對(duì)值丘跌;
  4. 相對(duì)最小二乘估計(jì)的殘差平方和(RSS)增加不太多;
    5.自變量矩陣存在共線性袭景,使得\beta的普通最小二乘估計(jì)不穩(wěn)定時(shí),嶺回歸特別有效闭树。

Lasso回歸通過添加系數(shù)的L1范數(shù)懲罰項(xiàng)來修正殘差平方和耸棒。
1.對(duì)于Lasso,中等值的\gamma會(huì)使得很多 \beta_j趨于0报辱;
2.當(dāng)相信因變量可以被少數(shù)自變量解釋与殃,而其余自變量沒有影響時(shí),使用Lasso 是最合適的;
3.Lasso可以被視為一種變量選擇方法奈籽;
4.嶺回歸沒有消除任何變量饥侵,它只是讓\beta_j變小了一點(diǎn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末衣屏,一起剝皮案震驚了整個(gè)濱河市躏升,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌狼忱,老刑警劉巖膨疏,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異钻弄,居然都是意外死亡佃却,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門窘俺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來饲帅,“玉大人,你說我怎么就攤上這事瘤泪≡畋茫” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我江兢,道長,這世上最難降的妖魔是什么惶洲? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮膳犹,結(jié)果婚禮上恬吕,老公的妹妹穿的比我還像新娘。我一直安慰自己镣奋,他們只是感情好币呵,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著侨颈,像睡著了一般余赢。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上哈垢,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天妻柒,我揣著相機(jī)與錄音,去河邊找鬼耘分。 笑死举塔,一個(gè)胖子當(dāng)著我的面吹牛绑警,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播央渣,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼计盒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了芽丹?” 一聲冷哼從身側(cè)響起北启,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎拔第,沒想到半個(gè)月后咕村,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蚊俺,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年懈涛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泳猬。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡批钠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出暂殖,到底是詐尸還是另有隱情价匠,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布呛每,位于F島的核電站,受9級(jí)特大地震影響坡氯,放射性物質(zhì)發(fā)生泄漏晨横。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一箫柳、第九天 我趴在偏房一處隱蔽的房頂上張望手形。 院中可真熱鬧,春花似錦悯恍、人聲如沸库糠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瞬欧。三九已至,卻和暖如春罢防,著一層夾襖步出監(jiān)牢的瞬間艘虎,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工咒吐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留野建,地道東北人属划。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像候生,于是被迫代替她去往敵國和親同眯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容