1西疤、商業(yè)數(shù)據(jù)分析簡介
分析是一門使用數(shù)據(jù)構(gòu)建模型的科學(xué),這些模型可為公司夯缺、機(jī)構(gòu)和個(gè)人的決策增加價(jià)值蚤氏。
唯一客觀的事實(shí)是數(shù)據(jù)。
模型的作用就是幫助我們從數(shù)據(jù)中挖掘有用的信息踊兜,以幫助管理者作出合理的決策竿滨。
大數(shù)據(jù)的特點(diǎn)(6V):
VOLUME:數(shù)據(jù)量大,一般到PB級(jí)
VARIETY:數(shù)據(jù)類型多
VELOCITY:數(shù)據(jù)產(chǎn)生速度快
VARACITY:數(shù)據(jù)可信
VALUE:數(shù)據(jù)具有商業(yè)價(jià)值
VARIABILITY:具備使用和格式化大數(shù)據(jù)的方式
結(jié)論:大數(shù)據(jù)分析能夠賦予企業(yè)和個(gè)人強(qiáng)大的競爭優(yōu)勢捏境;大數(shù)據(jù)分析對(duì)企業(yè)的成功至關(guān)重要于游。
2、線性回歸
2.1 基本假設(shè)
(1)自變量相互線性獨(dú)立垫言;
(2)常數(shù)方差或同方差及不相關(guān)假定贰剥;在此條件下可以得到關(guān)于回歸系數(shù)的最小二乘估計(jì)及誤差的方差估計(jì)的一些重要性質(zhì),如回歸系數(shù)的最小二乘估計(jì)是回歸系數(shù)的最小方差線性無偏估計(jì)等筷频。
(3)正態(tài)分布假定蚌成;在此條件下可得到關(guān)于回歸系數(shù)的最小二乘估計(jì)及誤差的方差估計(jì)的進(jìn)一步結(jié)果,如它們分別是回歸系數(shù)的最小方差無偏估計(jì)等截驮,并且可以進(jìn)行回歸系數(shù)的顯著性檢驗(yàn)及區(qū)間估計(jì)笑陈。
2.2回歸系數(shù)的估計(jì)
估計(jì)參數(shù)的方法有最小二乘法。
2.3回歸系數(shù)的計(jì)算
梯度下降法:通過迭代方式逐步得到最優(yōu)的結(jié)果葵袭。
2.4模型的評(píng)價(jià)
除了受自變量x的影響外涵妥,因變量y還受許多其他變量的影響,這些其他變量統(tǒng)稱為殘差變量坡锡,殘差變量包含了除x以外其他所有變量對(duì)y的效應(yīng)蓬网。
總平方和=回歸平方和+殘差平方和
使用回歸平方和占總平方和的比值來反映自變量x對(duì)因變量y的解釋能力窒所,這就是判定系數(shù)R2。
判定系數(shù)R2說明自變量x相對(duì)于其他變量(殘差變量)來說對(duì)因變量y的影響有多重要帆锋,而且說明了這些點(diǎn)離回歸直線越近吵取,殘差平方和越小。
2.5模型的參數(shù)檢驗(yàn)
由于抽樣的隨機(jī)性锯厢,通過樣本得到的回歸系數(shù)會(huì)與真實(shí)值有一定的差距皮官。
要將樣本數(shù)據(jù)得到的結(jié)論推廣到總體,需要通過檢驗(yàn)總體中因變量y和自變量x之間沒有相關(guān)性的零假設(shè)來實(shí)現(xiàn)实辑。
t檢驗(yàn):對(duì)單個(gè)總體參數(shù)的假設(shè)檢驗(yàn)捺氢,如系數(shù)1=0
F檢驗(yàn):對(duì)回歸模型整體顯著性的假設(shè)檢驗(yàn),如系數(shù)1=0剪撬,系數(shù)2=0……系數(shù)n=0
3摄乒、回歸模型的選擇
模型并不是自變量越多越好,而是盡可能少而精残黑。在一個(gè)現(xiàn)象的幾個(gè)合理的解釋中馍佑,最簡單的是最好的(奧卡姆剃刀原則)。
△不必要的自變量會(huì)增加估計(jì)噪聲梨水。
△如果自變量在回歸模型中全部都使用的話拭荤,就會(huì)出現(xiàn)多重共線性等問題。
當(dāng)比較潛在模型時(shí)可以使用一些方法做出選擇:
1冰木、基于標(biāo)準(zhǔn)的選擇
2穷劈、基于假設(shè)檢驗(yàn)的選擇
3、收縮方法:嶺(Ridge)回歸踊沸, Lasso回歸
3.1基于標(biāo)準(zhǔn)的選擇
兩種模型選擇標(biāo)準(zhǔn):
1歇终、Ra2統(tǒng)計(jì)量,在回歸模型的殘差平方和( Residual Sum of Squares, RSS)和模型復(fù)雜度k之間的平衡逼龟。
2评凝、AIC (Akaike Information Criterion)赤池信息標(biāo)準(zhǔn),間接地刻畫了估計(jì)模型和真實(shí)模型之間的距離腺律,所以我們將選擇最小化 AIC 的模型奕短。AIC 在模型選擇中為擬合性和簡潔性提供了平衡。
由于向模型添加變量會(huì)減少RSS匀钧,因而會(huì)增加R2翎碑,所以R2并不是一個(gè)好的標(biāo)準(zhǔn),它總會(huì)選擇最大可能的模型之斯。Ra2(修正后R2)通過引進(jìn)自變量數(shù)量k日杈,對(duì)自變量增加進(jìn)行了約束。
可以從擬合優(yōu)度的角度在一系列回歸模型中選擇Ra2最大的回歸模型作為最優(yōu)模型。
3.2基于假設(shè)檢驗(yàn)的選擇
基于p值的三種假設(shè)檢驗(yàn)選擇方法:向后消除莉擒,向前選擇酿炸,逐步回歸
向后消除 (backward elimination) 是所有變量選擇過程中最簡單的一種
? 從包含所有自變量的模型開始,刪除大于閾值 acrit 的最高p值的一個(gè)自變量涨冀;
? 重新擬合模型填硕,并刪除剩余變量中的最不顯著的自變量,刪除標(biāo)準(zhǔn)依然是其p值大于acrit鹿鳖;
? 重復(fù)進(jìn)行該過程扁眯;直至所有不顯著的自變量被刪除,從而完成變量選擇過程獲得最佳模型 栓辜。
向前選擇(forward selection)是向后選擇方法的相反過程恋拍。
逐步回歸(stepwise regression) 是向后消除和向前選擇的組合
? 在每個(gè)階段可以添加或刪除一個(gè)變量,使得變量有進(jìn)有出藕甩;
? 解決了在流程早期添加或刪除的變量,在后來不能刪除或添加的矛盾周荐;
? 實(shí)際上狭莱,逐步回歸法并不是一個(gè)新的回歸方法,所用到的參數(shù)估計(jì)方法都是之前介紹的概作,只是從眾多變量中選擇出最優(yōu)模型的一套方法腋妙。
3.3收縮方法:嶺回歸、Lasso回歸
通過對(duì)回歸系數(shù)進(jìn)行收縮讯榕,在盡量減少自變量的基礎(chǔ)上獲得好的模型骤素。
嶺回歸(Ridge Regression)由 Hoerl 和 Kennard 于1970年提出,是一種有偏估計(jì)愚屁,是對(duì)最小二乘法(無偏估計(jì))的改進(jìn)济竹。嶺回歸(Ridge Regression)通過添加系數(shù)的L2范數(shù)懲罰項(xiàng)來修正殘差平方和。
選擇好的或 t 值的原則:
- 各回歸系數(shù)的嶺估計(jì)基本穩(wěn)定霎槐;
- 最小二乘估計(jì)的回歸系數(shù)符號(hào)不合理時(shí)送浊,嶺估計(jì)參數(shù)的符號(hào)變得合理;
- 回歸系數(shù)沒有不合乎實(shí)際意義的絕對(duì)值丘跌;
- 相對(duì)最小二乘估計(jì)的殘差平方和(RSS)增加不太多;
5.自變量矩陣存在共線性袭景,使得的普通最小二乘估計(jì)不穩(wěn)定時(shí),嶺回歸特別有效闭树。
Lasso回歸通過添加系數(shù)的L1范數(shù)懲罰項(xiàng)來修正殘差平方和耸棒。
1.對(duì)于Lasso,中等值的會(huì)使得很多 趨于0报辱;
2.當(dāng)相信因變量可以被少數(shù)自變量解釋与殃,而其余自變量沒有影響時(shí),使用Lasso 是最合適的;
3.Lasso可以被視為一種變量選擇方法奈籽;
4.嶺回歸沒有消除任何變量饥侵,它只是讓變小了一點(diǎn)。