統(tǒng)計建模前言 (Preface and Introduction to statistical modeling)

?這一系列文章是自己對多元統(tǒng)計分析和統(tǒng)計建模知識的一些總結(jié)和思考铐殃。如果有不清楚或者錯漏的地方榕堰,歡迎留言討論,也歡迎分享統(tǒng)計相關(guān)的好書和文章疲吸。另外這里的內(nèi)容大都是已經(jīng)有的統(tǒng)計,數(shù)據(jù)分析,和機器學(xué)習(xí)的知識點的總結(jié),并沒有許多創(chuàng)新的地方,大部分并非原創(chuàng),只是知識的整理和一些思考前鹅。推薦Modelling and Stochastic Analysis by VG Kulkarni磅氨。

摘抄《Statistical Models》-by A.C. Davison 書里的兩段話,“Statistics concerns what can be learned from data. Applied statistics comprises a body of methods for data collection and analysis across the whole range of science, and in areas such as engineering, medicine, business, and law, -wherever variable data must be summarized, or used to test or confirm theories, or to inform decisions. Theoretical statistics underpins this by providing a framework for understanding the properties and scope of methods used in applications.

Statistical ideas may be expressed most precisely and economically in mathematical terms, but contact with data and with scientific reasoning has given statistics a distinctive outlook. Whereas mathematics is often judged by its elegance and generality, many statistical developments arise as a result of concrete questions posed by investigators and data that they hope will provide answers, and elegant and general solutions are not always available. The huge variety of such problems makes it hard to develop a single over-arching theory, but nevertheless comman strands appear. Uniting them is the idea of a statistical model. ”

統(tǒng)計學(xué)的特性

統(tǒng)計學(xué)是一種從收集的數(shù)據(jù)中獲取信息的方法嫡纠。

統(tǒng)計學(xué)可以回答下面的問題:1.需要收集什么樣以及多大量的數(shù)據(jù); 2 如何組織和總結(jié)數(shù)據(jù); 3 如何分析數(shù)據(jù)并得出結(jié)論; 4 如何對結(jié)論進(jìn)行評估;

統(tǒng)計學(xué)可以分成描述性(Descriptive)和推斷性(Inferential)統(tǒng)計學(xué)烦租。

描述性的統(tǒng)計學(xué)包括圖表延赌,各種描述性度量:對中心的刻畫(期望中位數(shù)叉橱、眾數(shù))變化(方差挫以、標(biāo)準(zhǔn)差)、百分位數(shù)(percentile)

推斷性的統(tǒng)計學(xué)方法有點估計(point estimation)窃祝,區(qū)間估計(interval estimation)掐松,假設(shè)檢驗(hypothesis testing);?變量包括數(shù)量變量(quantitative / numerical variable)粪小,離散或者連續(xù)大磺,類別變量( qualitative / categorical variable)以及數(shù)量變量;度量有中心度量:眾數(shù)探膊、中位數(shù)(偏態(tài)分布)杠愧、均值(對稱分布中使用)以及變化度量。

統(tǒng)計學(xué)包括的內(nèi)容

英國著名統(tǒng)計學(xué)家Kendall在多元統(tǒng)計分析一書中把統(tǒng)計的內(nèi)容和方法概括成下面幾個方面 (1) 降維問題(dimension reduction 簡化數(shù)據(jù)結(jié)構(gòu)) (2) 分類和判別 (classification 歸類問題) (3) 變量之間的相互聯(lián)系 (regression) (4) 統(tǒng)計推斷 (inference): 包括假設(shè)檢驗和參數(shù)估計 (hypothesis testing and parameter estimation)?


統(tǒng)計模型簡單的例子(線性回歸):

y=f(x,\theta)+\epsilon

y:因變量 逞壁;? x:自變量 流济;? \theta:未知參數(shù);? \epsilon:擾動函數(shù)腌闯。

其中绳瘟,第一個加項是自變量對因變量的影響,反映出的是共性特征姿骏;而第二個加項反映出的是個性特征糖声。

在統(tǒng)計建模中,需要求出的第一個加項的表達(dá)式分瘦,并根據(jù)分布姨丈,估計出未知參數(shù)。

傳統(tǒng)模型的弊端在于只能用于求解簡單的顯示表達(dá)式擅腰,且比較復(fù)雜的函數(shù)關(guān)系無法表示出來;并且只能用于自變量和因變量可區(qū)分的情形翁潘。

統(tǒng)計模型的分類:

根據(jù)目的分類:

1. 聚類方法:應(yīng)用于市場細(xì)分趁冈、協(xié)同推薦

2. 預(yù)測方法:回歸模型、時間序列模型

3. 關(guān)聯(lián)歸納方法:購物籃分析拜马、序列分析

根據(jù)方法原理分類:

1.基于傳統(tǒng)統(tǒng)計模型的推斷方法: 在抽樣理論的支持下渗勘,首先假定預(yù)測因素間公式化的聯(lián)系,然后采用假設(shè)檢驗的方法來驗證相應(yīng)的假設(shè)是否成立俩莽,并給出相應(yīng)的參數(shù)估計值旺坠。

2. 基于機器識別基數(shù)的自動化方法: 非推斷性方法,沒有前提假設(shè)扮超,直接從數(shù)據(jù)集中尋找關(guān)聯(lián)取刃,后采用驗證數(shù)據(jù)集對找到的關(guān)聯(lián)加以驗證蹋肮。



統(tǒng)計模型的幾個重要的概念:

損失函數(shù):

損失函數(shù):衡量模型的信息損失或是預(yù)測錯誤程度的函數(shù)。統(tǒng)計模型擬合的最終目標(biāo):損失函數(shù)最小璧疗。

對不同類型的變量坯辩,常見的損失函數(shù)有:對分類變量:錯分比例,分類預(yù)測正確性崩侠,熵漆魔;對連續(xù)變量:殘差所代表的信息量的綜合及其所導(dǎo)致的損失,最小乘法中的殘差平方和却音,離均值絕對值之和(最小一乘法)改抡。

Note:因為因子分析和主成分分析沒有目標(biāo),所以也就不存在損失函數(shù)系瓢。有監(jiān)督的學(xué)習(xí)阿纤,才需要損失函數(shù)。

懲罰項:

在理想的損失函數(shù)的基礎(chǔ)上加一個懲罰項八拱,用于表達(dá)模型的復(fù)雜程度阵赠,以避免一味地追求精確而使得模型過于復(fù)雜。

原模型:原損失函數(shù) = 模型精確性衡量指標(biāo)肌稻;

修正為:新?lián)p失函數(shù)? = 模型精確性衡量指標(biāo) + 模型復(fù)雜度衡量指標(biāo)清蚀;

可以進(jìn)一步加權(quán)地修正如下:

原損失函數(shù) = 模型精確性衡量指標(biāo) +?模型復(fù)雜度衡量指標(biāo)。

正則化:

在機器學(xué)習(xí)中爹谭,正則化(regularization)枷邪;在統(tǒng)計學(xué)領(lǐng)域,模型懲罰項(penalty)诺凡;在數(shù)學(xué)上东揣,范數(shù)(norm);

正則化基本作用:保證模型盡可能的簡單,避免參數(shù)過多導(dǎo)致過擬合腹泌;約束模型特性嘶卧,加入一些先驗知識,例如稀疏凉袱、低秩芥吟。正則化函數(shù)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜专甩,代價越大钟鸵。

幾種常見的正則化/懲罰項/范數(shù)類型:

L0正則化:復(fù)雜度指標(biāo)為模型中非零參數(shù)的個數(shù);L1正則化:為模型中各個參數(shù)絕對值(加權(quán))之和 涤躲,如幾何學(xué)上的曼哈頓距離(街區(qū)距離)棺耍,主要用于特征選擇/篩選變量,實例:Lasson回歸种樱;L2正則化 :為模型中各個參數(shù)平方(加權(quán))之和的開方蒙袍,即歐氏距離俊卤,主要用于防止過擬合,實例:嶺回歸左敌;Ln正則化:為模型中各個參數(shù)n次方(加權(quán))之和的開n次方瘾蛋。



統(tǒng)計(尤其是統(tǒng)計建模)、機器學(xué)習(xí)和人工智能之間有何區(qū)別

下面是摘抄自O(shè)liver Schabenberger矫限,SAS CTO的文章(大家可以去看原文哺哼,原文來源:https://www.linkedin.com/pulse/difference-between-statistical-modeling-machine-i-see-schabenberger?trk=prof-post),解釋的比較清楚:

最近我多次被問到統(tǒng)計(尤其是統(tǒng)計建模)叼风、機器學(xué)習(xí)和人工智能之間有何區(qū)別取董。其實這三者之間在目標(biāo)、技術(shù)和算法方面有很多重疊的部分无宿。引起困惑的原因不僅僅是因為這些重疊部分茵汰,也是因為我們被很多非科普文中的時髦詞兒給迷惑了。

統(tǒng)計建模

統(tǒng)計建模最基本的目標(biāo)是回答一個問題:哪一種概率模型可以產(chǎn)生我所觀察到的數(shù)據(jù)孽鸡?因此你必須:

從一個合理的模型群里挑出候選模型

預(yù)估未知變量(參數(shù)蹂午,Aka擬合模型到數(shù)據(jù)中)

比較擬合模型與其他備選模型

舉個例子,如果你的數(shù)據(jù)需要計算彬碱,例如流失客戶數(shù)或者細(xì)胞分裂數(shù)豆胸,那么泊松模型(Poisson)、負(fù)二項模型或者零膨脹模型(zero-inflated model)都可能適用巷疼。

一旦某統(tǒng)計模型被選定晚胡,那預(yù)估模型將用于測試假設(shè)、創(chuàng)建預(yù)測值以及置信測量嚼沿。預(yù)估模型將成為我們解析數(shù)據(jù)的透鏡估盘。我們從未宣稱選定模型就能產(chǎn)生數(shù)據(jù),但是我們能觀察它基于某驗證推理在隨機過程所獲取的合理近似值骡尽。

驗證推理是統(tǒng)計建模的一個重要部分遣妥。舉例而言,要決策到底是哪一種或者哪三種醫(yī)療設(shè)備可以讓病患獲得最好的治療攀细,你也許會感興趣使用一個模型箫踩,該模型能捕獲某種數(shù)據(jù)機制來判斷該病患在接受不同治療所獲得的不同結(jié)果。如果某個模型可以很好地捕獲數(shù)據(jù)產(chǎn)生機制辨图,那么其也可以在那些被觀察數(shù)據(jù)區(qū)間內(nèi)做出很好的預(yù)測,甚至可能預(yù)測出新的觀察結(jié)果肢藐。

經(jīng)典機器學(xué)習(xí)

經(jīng)典機器學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動型技術(shù)故河,受模式識別啟動,專注于回歸算法和分類算法吆豹。其潛在的隨機機制通常并沒有作為最首要一項關(guān)注點鱼的。當(dāng)然很多機器學(xué)習(xí)技術(shù)也能通過隨機模型和回歸計算來定義理盆,但是數(shù)據(jù)并不被認(rèn)為是由其模型直接生成的。因此凑阶,最重要的關(guān)注點是識別到底是執(zhí)行哪項特定任務(wù)的算法還是技術(shù)鑒定(或者集成方法):也就是說客戶到底最好被分段于K(數(shù)據(jù)集群或聚類)猿规,還是DBSCAN,或者是決策樹宙橱,或者是隨機森林姨俩,又或者是SVM?

簡而言之师郑,對統(tǒng)計人員來說模型是第一位的环葵,對機器學(xué)習(xí)者而言,數(shù)據(jù)是第一位的宝冕。因為機器學(xué)習(xí)的終點是數(shù)據(jù)张遭,而不是模型。將數(shù)據(jù)分離出來去做訓(xùn)練集和測試集的驗證技術(shù)(鑒定方法)是很重要的地梨。一個解決方案的質(zhì)量高低并不僅僅依賴p-值菊卷,而是需要證明這個解決方案在以前不可見數(shù)據(jù)中是否表現(xiàn)良好。將一個統(tǒng)計模型擬合到一個數(shù)據(jù)集宝剖,或者將一個決策樹訓(xùn)練成一個數(shù)據(jù)集洁闰,將會需要融合一些未知值的預(yù)估值。該決策樹的最佳分割點取決于從屬變量的條件分布參數(shù)的預(yù)估值诈闺。

對我而言渴庆,沒有什么技術(shù)被證明可以自我學(xué)習(xí)。訓(xùn)練才是成型某種學(xué)習(xí)的必要過程雅镊,換句話說襟雷,這意味著要獲取一項新的技能技術(shù),訓(xùn)練就是學(xué)習(xí)的一部分仁烹。訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)取決于輸入數(shù)據(jù)的權(quán)重和偏差耸弄,如果它學(xué)習(xí)分類,而該網(wǎng)絡(luò)就變形成為一個分類器卓缰。

現(xiàn)代機器學(xué)習(xí)

機器學(xué)習(xí)系統(tǒng)如果不是編程去執(zhí)行一個任務(wù)计呈,而是編程去學(xué)習(xí)執(zhí)行一項任務(wù),那么這就是一個真正的學(xué)習(xí)系統(tǒng)征唬,我把這叫做現(xiàn)代機器學(xué)習(xí)捌显。就像經(jīng)典機器學(xué)習(xí)的變體,這也是一個數(shù)據(jù)驅(qū)動型的實踐总寒。但不一樣的地方是扶歪,現(xiàn)代機器學(xué)習(xí)不僅僅是依賴于豐富的算法技術(shù),幾乎所有的這類機器學(xué)習(xí)的應(yīng)用都基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)摄闸。

這個領(lǐng)域我們現(xiàn)在傾向于稱它為深度學(xué)習(xí)善镰,一種機器學(xué)習(xí)的細(xì)分妹萨,經(jīng)常應(yīng)用于人工智能,也就是說讓機器去執(zhí)行人類的任務(wù)炫欺。

數(shù)據(jù)扮演什么角色乎完?

現(xiàn)在我們可以通過數(shù)據(jù)所承擔(dān)的角色來區(qū)分統(tǒng)計建模、經(jīng)典機器學(xué)習(xí)和現(xiàn)代機器學(xué)習(xí)品洛。

在統(tǒng)計建模里面树姨,數(shù)據(jù)引導(dǎo)我們?nèi)ミx擇隨機模型,來形成對不同問題概率的抽象表達(dá)毫别,例如假設(shè)娃弓、預(yù)測和預(yù)報。

在經(jīng)典機器學(xué)習(xí)里岛宦,數(shù)據(jù)驅(qū)動的是對分析技術(shù)的選擇台丛,如何最佳地執(zhí)行即將任務(wù),這是數(shù)據(jù)訓(xùn)練算法砾肺。

在現(xiàn)代機器學(xué)習(xí)里挽霉,數(shù)據(jù)驅(qū)動基于神經(jīng)網(wǎng)絡(luò)算法的系統(tǒng),去學(xué)習(xí)具體任務(wù)变汪,系統(tǒng)可以自動判定數(shù)據(jù)常量規(guī)則侠坎。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)的過程中,系統(tǒng)逐漸學(xué)習(xí)到執(zhí)行任務(wù)裙盾,就像某人所說:“是數(shù)據(jù)在做編程实胸。”



之后我們會討論方差番官,置信區(qū)間庐完,隨機模型,假設(shè)檢驗徘熔,參數(shù)估計门躯,線性回歸,非線性回歸酷师,貝葉斯方法以及條件和邊際推斷讶凉。

這里主要是要明白統(tǒng)計建模指的是什么,包括哪些內(nèi)容山孔,和機器學(xué)習(xí)有哪些重合的部分又有那些區(qū)別懂讯。



常用的統(tǒng)計模型包括:參看《python 編程從數(shù)據(jù)分析到數(shù)據(jù)科學(xué)》

1.廣義線性模型(是多數(shù)監(jiān)督機器學(xué)習(xí)方法的基礎(chǔ),如邏輯回歸和Tweedie回歸)

2.時間序列方法(ARIMA 台颠,SSA,基于機器學(xué)習(xí)的方法)

3.結(jié)構(gòu)方程建模(針對潛變量之間關(guān)系進(jìn)行建模)

4.因子分析(調(diào)查設(shè)計和驗證的探索型分析)

5.功效分析/實驗分析(特別是基于仿真的實驗設(shè)計褐望,以避免分析過度)

6.非參數(shù)檢驗(MCMC)

7.K均值聚類

8.貝葉斯方法(樸素貝葉斯、貝葉斯模型平均/Bayesian model averaging、貝葉斯適應(yīng)型實驗/Bayesian adaptive trials)

9.懲罰性回歸模型(彈性網(wǎng)絡(luò)/Elastic Net,LASSO,LARS)譬挚,以及對通用模型(SVM\XGboost等)加懲罰,這對于預(yù)測變量多與觀測值的數(shù)據(jù)很有用酪呻,在基因組學(xué)和社會科學(xué)研究中較為常用减宣。

10.樣條模型/SPline-based models(MARS等):主要用于流程建模。

11.馬爾可夫鏈和隨機過程(時間序列建模和預(yù)測建模的替代方法)

12.缺失數(shù)據(jù)插補方法及其假設(shè)(missFores,MICE)

13.生存分析/survival analysis(主要特點是考慮了每個觀測出現(xiàn)某一結(jié)局的時間長短)

14.混合建模

15.統(tǒng)計推理和組群測試

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末玩荠,一起剝皮案震驚了整個濱河市漆腌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌阶冈,老刑警劉巖闷尿,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異女坑,居然都是意外死亡填具,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進(jìn)店門匆骗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來劳景,“玉大人,你說我怎么就攤上這事碉就∶斯悖” “怎么了?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵瓮钥,是天一觀的道長筋量。 經(jīng)常有香客問我,道長碉熄,這世上最難降的妖魔是什么桨武? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮具被,結(jié)果婚禮上玻募,老公的妹妹穿的比我還像新娘。我一直安慰自己一姿,他們只是感情好七咧,可當(dāng)我...
    茶點故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著叮叹,像睡著了一般艾栋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蛉顽,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天蝗砾,我揣著相機與錄音,去河邊找鬼。 笑死悼粮,一個胖子當(dāng)著我的面吹牛闲勺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播扣猫,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼菜循,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了申尤?” 一聲冷哼從身側(cè)響起癌幕,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎昧穿,沒想到半個月后勺远,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡时鸵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年胶逢,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片饰潜。...
    茶點故事閱讀 39,764評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡宪塔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出囊拜,到底是詐尸還是另有隱情某筐,我是刑警寧澤,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布冠跷,位于F島的核電站南誊,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蜜托。R本人自食惡果不足惜抄囚,卻給世界環(huán)境...
    茶點故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望橄务。 院中可真熱鬧幔托,春花似錦、人聲如沸蜂挪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽棠涮。三九已至谬哀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間严肪,已是汗流浹背史煎。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工谦屑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人篇梭。 一個月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓氢橙,卻偏偏與公主長得像,于是被迫代替她去往敵國和親恬偷。 傳聞我的和親對象是個殘疾皇子充蓝,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,665評論 2 354

推薦閱讀更多精彩內(nèi)容