?這一系列文章是自己對多元統(tǒng)計分析和統(tǒng)計建模知識的一些總結(jié)和思考铐殃。如果有不清楚或者錯漏的地方榕堰,歡迎留言討論,也歡迎分享統(tǒng)計相關(guān)的好書和文章疲吸。另外這里的內(nèi)容大都是已經(jīng)有的統(tǒng)計,數(shù)據(jù)分析,和機器學(xué)習(xí)的知識點的總結(jié),并沒有許多創(chuàng)新的地方,大部分并非原創(chuàng),只是知識的整理和一些思考前鹅。推薦Modelling and Stochastic Analysis by VG Kulkarni磅氨。
摘抄《Statistical Models》-by A.C. Davison 書里的兩段話,“Statistics concerns what can be learned from data. Applied statistics comprises a body of methods for data collection and analysis across the whole range of science, and in areas such as engineering, medicine, business, and law, -wherever variable data must be summarized, or used to test or confirm theories, or to inform decisions. Theoretical statistics underpins this by providing a framework for understanding the properties and scope of methods used in applications.
Statistical ideas may be expressed most precisely and economically in mathematical terms, but contact with data and with scientific reasoning has given statistics a distinctive outlook. Whereas mathematics is often judged by its elegance and generality, many statistical developments arise as a result of concrete questions posed by investigators and data that they hope will provide answers, and elegant and general solutions are not always available. The huge variety of such problems makes it hard to develop a single over-arching theory, but nevertheless comman strands appear. Uniting them is the idea of a statistical model. ”
統(tǒng)計學(xué)的特性
統(tǒng)計學(xué)是一種從收集的數(shù)據(jù)中獲取信息的方法嫡纠。
統(tǒng)計學(xué)可以回答下面的問題:1.需要收集什么樣以及多大量的數(shù)據(jù); 2 如何組織和總結(jié)數(shù)據(jù); 3 如何分析數(shù)據(jù)并得出結(jié)論; 4 如何對結(jié)論進(jìn)行評估;
統(tǒng)計學(xué)可以分成描述性(Descriptive)和推斷性(Inferential)統(tǒng)計學(xué)烦租。
描述性的統(tǒng)計學(xué)包括圖表延赌,各種描述性度量:對中心的刻畫(期望、中位數(shù)叉橱、眾數(shù))變化(方差挫以、標(biāo)準(zhǔn)差)、百分位數(shù)(percentile)
推斷性的統(tǒng)計學(xué)方法有點估計(point estimation)窃祝,區(qū)間估計(interval estimation)掐松,假設(shè)檢驗(hypothesis testing);?變量包括數(shù)量變量(quantitative / numerical variable)粪小,離散或者連續(xù)大磺,類別變量( qualitative / categorical variable)以及數(shù)量變量;度量有中心度量:眾數(shù)探膊、中位數(shù)(偏態(tài)分布)杠愧、均值(對稱分布中使用)以及變化度量。
統(tǒng)計學(xué)包括的內(nèi)容
英國著名統(tǒng)計學(xué)家Kendall在多元統(tǒng)計分析一書中把統(tǒng)計的內(nèi)容和方法概括成下面幾個方面 (1) 降維問題(dimension reduction 簡化數(shù)據(jù)結(jié)構(gòu)) (2) 分類和判別 (classification 歸類問題) (3) 變量之間的相互聯(lián)系 (regression) (4) 統(tǒng)計推斷 (inference): 包括假設(shè)檢驗和參數(shù)估計 (hypothesis testing and parameter estimation)?
統(tǒng)計模型簡單的例子(線性回歸):
y=f(x,\theta)+\epsilon
y:因變量 逞壁;? x:自變量 流济;? \theta:未知參數(shù);? \epsilon:擾動函數(shù)腌闯。
其中绳瘟,第一個加項是自變量對因變量的影響,反映出的是共性特征姿骏;而第二個加項反映出的是個性特征糖声。
在統(tǒng)計建模中,需要求出的第一個加項的表達(dá)式分瘦,并根據(jù)分布姨丈,估計出未知參數(shù)。
傳統(tǒng)模型的弊端在于只能用于求解簡單的顯示表達(dá)式擅腰,且比較復(fù)雜的函數(shù)關(guān)系無法表示出來;并且只能用于自變量和因變量可區(qū)分的情形翁潘。
統(tǒng)計模型的分類:
根據(jù)目的分類:
1. 聚類方法:應(yīng)用于市場細(xì)分趁冈、協(xié)同推薦
2. 預(yù)測方法:回歸模型、時間序列模型
3. 關(guān)聯(lián)歸納方法:購物籃分析拜马、序列分析
根據(jù)方法原理分類:
1.基于傳統(tǒng)統(tǒng)計模型的推斷方法: 在抽樣理論的支持下渗勘,首先假定預(yù)測因素間公式化的聯(lián)系,然后采用假設(shè)檢驗的方法來驗證相應(yīng)的假設(shè)是否成立俩莽,并給出相應(yīng)的參數(shù)估計值旺坠。
2. 基于機器識別基數(shù)的自動化方法: 非推斷性方法,沒有前提假設(shè)扮超,直接從數(shù)據(jù)集中尋找關(guān)聯(lián)取刃,后采用驗證數(shù)據(jù)集對找到的關(guān)聯(lián)加以驗證蹋肮。
統(tǒng)計模型的幾個重要的概念:
損失函數(shù):
損失函數(shù):衡量模型的信息損失或是預(yù)測錯誤程度的函數(shù)。統(tǒng)計模型擬合的最終目標(biāo):損失函數(shù)最小璧疗。
對不同類型的變量坯辩,常見的損失函數(shù)有:對分類變量:錯分比例,分類預(yù)測正確性崩侠,熵漆魔;對連續(xù)變量:殘差所代表的信息量的綜合及其所導(dǎo)致的損失,最小乘法中的殘差平方和却音,離均值絕對值之和(最小一乘法)改抡。
Note:因為因子分析和主成分分析沒有目標(biāo),所以也就不存在損失函數(shù)系瓢。有監(jiān)督的學(xué)習(xí)阿纤,才需要損失函數(shù)。
懲罰項:
在理想的損失函數(shù)的基礎(chǔ)上加一個懲罰項八拱,用于表達(dá)模型的復(fù)雜程度阵赠,以避免一味地追求精確而使得模型過于復(fù)雜。
原模型:原損失函數(shù) = 模型精確性衡量指標(biāo)肌稻;
修正為:新?lián)p失函數(shù)? = 模型精確性衡量指標(biāo) + 模型復(fù)雜度衡量指標(biāo)清蚀;
可以進(jìn)一步加權(quán)地修正如下:
原損失函數(shù) = 模型精確性衡量指標(biāo) +?模型復(fù)雜度衡量指標(biāo)。
正則化:
在機器學(xué)習(xí)中爹谭,正則化(regularization)枷邪;在統(tǒng)計學(xué)領(lǐng)域,模型懲罰項(penalty)诺凡;在數(shù)學(xué)上东揣,范數(shù)(norm);
正則化基本作用:保證模型盡可能的簡單,避免參數(shù)過多導(dǎo)致過擬合腹泌;約束模型特性嘶卧,加入一些先驗知識,例如稀疏凉袱、低秩芥吟。正則化函數(shù)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜专甩,代價越大钟鸵。
幾種常見的正則化/懲罰項/范數(shù)類型:
L0正則化:復(fù)雜度指標(biāo)為模型中非零參數(shù)的個數(shù);L1正則化:為模型中各個參數(shù)絕對值(加權(quán))之和 涤躲,如幾何學(xué)上的曼哈頓距離(街區(qū)距離)棺耍,主要用于特征選擇/篩選變量,實例:Lasson回歸种樱;L2正則化 :為模型中各個參數(shù)平方(加權(quán))之和的開方蒙袍,即歐氏距離俊卤,主要用于防止過擬合,實例:嶺回歸左敌;Ln正則化:為模型中各個參數(shù)n次方(加權(quán))之和的開n次方瘾蛋。
統(tǒng)計(尤其是統(tǒng)計建模)、機器學(xué)習(xí)和人工智能之間有何區(qū)別
下面是摘抄自O(shè)liver Schabenberger矫限,SAS CTO的文章(大家可以去看原文哺哼,原文來源:https://www.linkedin.com/pulse/difference-between-statistical-modeling-machine-i-see-schabenberger?trk=prof-post),解釋的比較清楚:
最近我多次被問到統(tǒng)計(尤其是統(tǒng)計建模)叼风、機器學(xué)習(xí)和人工智能之間有何區(qū)別取董。其實這三者之間在目標(biāo)、技術(shù)和算法方面有很多重疊的部分无宿。引起困惑的原因不僅僅是因為這些重疊部分茵汰,也是因為我們被很多非科普文中的時髦詞兒給迷惑了。
統(tǒng)計建模
統(tǒng)計建模最基本的目標(biāo)是回答一個問題:哪一種概率模型可以產(chǎn)生我所觀察到的數(shù)據(jù)孽鸡?因此你必須:
從一個合理的模型群里挑出候選模型
預(yù)估未知變量(參數(shù)蹂午,Aka擬合模型到數(shù)據(jù)中)
比較擬合模型與其他備選模型
舉個例子,如果你的數(shù)據(jù)需要計算彬碱,例如流失客戶數(shù)或者細(xì)胞分裂數(shù)豆胸,那么泊松模型(Poisson)、負(fù)二項模型或者零膨脹模型(zero-inflated model)都可能適用巷疼。
一旦某統(tǒng)計模型被選定晚胡,那預(yù)估模型將用于測試假設(shè)、創(chuàng)建預(yù)測值以及置信測量嚼沿。預(yù)估模型將成為我們解析數(shù)據(jù)的透鏡估盘。我們從未宣稱選定模型就能產(chǎn)生數(shù)據(jù),但是我們能觀察它基于某驗證推理在隨機過程所獲取的合理近似值骡尽。
驗證推理是統(tǒng)計建模的一個重要部分遣妥。舉例而言,要決策到底是哪一種或者哪三種醫(yī)療設(shè)備可以讓病患獲得最好的治療攀细,你也許會感興趣使用一個模型箫踩,該模型能捕獲某種數(shù)據(jù)機制來判斷該病患在接受不同治療所獲得的不同結(jié)果。如果某個模型可以很好地捕獲數(shù)據(jù)產(chǎn)生機制辨图,那么其也可以在那些被觀察數(shù)據(jù)區(qū)間內(nèi)做出很好的預(yù)測,甚至可能預(yù)測出新的觀察結(jié)果肢藐。
經(jīng)典機器學(xué)習(xí)
經(jīng)典機器學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動型技術(shù)故河,受模式識別啟動,專注于回歸算法和分類算法吆豹。其潛在的隨機機制通常并沒有作為最首要一項關(guān)注點鱼的。當(dāng)然很多機器學(xué)習(xí)技術(shù)也能通過隨機模型和回歸計算來定義理盆,但是數(shù)據(jù)并不被認(rèn)為是由其模型直接生成的。因此凑阶,最重要的關(guān)注點是識別到底是執(zhí)行哪項特定任務(wù)的算法還是技術(shù)鑒定(或者集成方法):也就是說客戶到底最好被分段于K(數(shù)據(jù)集群或聚類)猿规,還是DBSCAN,或者是決策樹宙橱,或者是隨機森林姨俩,又或者是SVM?
簡而言之师郑,對統(tǒng)計人員來說模型是第一位的环葵,對機器學(xué)習(xí)者而言,數(shù)據(jù)是第一位的宝冕。因為機器學(xué)習(xí)的終點是數(shù)據(jù)张遭,而不是模型。將數(shù)據(jù)分離出來去做訓(xùn)練集和測試集的驗證技術(shù)(鑒定方法)是很重要的地梨。一個解決方案的質(zhì)量高低并不僅僅依賴p-值菊卷,而是需要證明這個解決方案在以前不可見數(shù)據(jù)中是否表現(xiàn)良好。將一個統(tǒng)計模型擬合到一個數(shù)據(jù)集宝剖,或者將一個決策樹訓(xùn)練成一個數(shù)據(jù)集洁闰,將會需要融合一些未知值的預(yù)估值。該決策樹的最佳分割點取決于從屬變量的條件分布參數(shù)的預(yù)估值诈闺。
對我而言渴庆,沒有什么技術(shù)被證明可以自我學(xué)習(xí)。訓(xùn)練才是成型某種學(xué)習(xí)的必要過程雅镊,換句話說襟雷,這意味著要獲取一項新的技能技術(shù),訓(xùn)練就是學(xué)習(xí)的一部分仁烹。訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)取決于輸入數(shù)據(jù)的權(quán)重和偏差耸弄,如果它學(xué)習(xí)分類,而該網(wǎng)絡(luò)就變形成為一個分類器卓缰。
現(xiàn)代機器學(xué)習(xí)
機器學(xué)習(xí)系統(tǒng)如果不是編程去執(zhí)行一個任務(wù)计呈,而是編程去學(xué)習(xí)執(zhí)行一項任務(wù),那么這就是一個真正的學(xué)習(xí)系統(tǒng)征唬,我把這叫做現(xiàn)代機器學(xué)習(xí)捌显。就像經(jīng)典機器學(xué)習(xí)的變體,這也是一個數(shù)據(jù)驅(qū)動型的實踐总寒。但不一樣的地方是扶歪,現(xiàn)代機器學(xué)習(xí)不僅僅是依賴于豐富的算法技術(shù),幾乎所有的這類機器學(xué)習(xí)的應(yīng)用都基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)摄闸。
這個領(lǐng)域我們現(xiàn)在傾向于稱它為深度學(xué)習(xí)善镰,一種機器學(xué)習(xí)的細(xì)分妹萨,經(jīng)常應(yīng)用于人工智能,也就是說讓機器去執(zhí)行人類的任務(wù)炫欺。
數(shù)據(jù)扮演什么角色乎完?
現(xiàn)在我們可以通過數(shù)據(jù)所承擔(dān)的角色來區(qū)分統(tǒng)計建模、經(jīng)典機器學(xué)習(xí)和現(xiàn)代機器學(xué)習(xí)品洛。
在統(tǒng)計建模里面树姨,數(shù)據(jù)引導(dǎo)我們?nèi)ミx擇隨機模型,來形成對不同問題概率的抽象表達(dá)毫别,例如假設(shè)娃弓、預(yù)測和預(yù)報。
在經(jīng)典機器學(xué)習(xí)里岛宦,數(shù)據(jù)驅(qū)動的是對分析技術(shù)的選擇台丛,如何最佳地執(zhí)行即將任務(wù),這是數(shù)據(jù)訓(xùn)練算法砾肺。
在現(xiàn)代機器學(xué)習(xí)里挽霉,數(shù)據(jù)驅(qū)動基于神經(jīng)網(wǎng)絡(luò)算法的系統(tǒng),去學(xué)習(xí)具體任務(wù)变汪,系統(tǒng)可以自動判定數(shù)據(jù)常量規(guī)則侠坎。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)的過程中,系統(tǒng)逐漸學(xué)習(xí)到執(zhí)行任務(wù)裙盾,就像某人所說:“是數(shù)據(jù)在做編程实胸。”
之后我們會討論方差番官,置信區(qū)間庐完,隨機模型,假設(shè)檢驗徘熔,參數(shù)估計门躯,線性回歸,非線性回歸酷师,貝葉斯方法以及條件和邊際推斷讶凉。
這里主要是要明白統(tǒng)計建模指的是什么,包括哪些內(nèi)容山孔,和機器學(xué)習(xí)有哪些重合的部分又有那些區(qū)別懂讯。
常用的統(tǒng)計模型包括:參看《python 編程從數(shù)據(jù)分析到數(shù)據(jù)科學(xué)》
1.廣義線性模型(是多數(shù)監(jiān)督機器學(xué)習(xí)方法的基礎(chǔ),如邏輯回歸和Tweedie回歸)
2.時間序列方法(ARIMA 台颠,SSA,基于機器學(xué)習(xí)的方法)
3.結(jié)構(gòu)方程建模(針對潛變量之間關(guān)系進(jìn)行建模)
4.因子分析(調(diào)查設(shè)計和驗證的探索型分析)
5.功效分析/實驗分析(特別是基于仿真的實驗設(shè)計褐望,以避免分析過度)
6.非參數(shù)檢驗(MCMC)
7.K均值聚類
8.貝葉斯方法(樸素貝葉斯、貝葉斯模型平均/Bayesian model averaging、貝葉斯適應(yīng)型實驗/Bayesian adaptive trials)
9.懲罰性回歸模型(彈性網(wǎng)絡(luò)/Elastic Net,LASSO,LARS)譬挚,以及對通用模型(SVM\XGboost等)加懲罰,這對于預(yù)測變量多與觀測值的數(shù)據(jù)很有用酪呻,在基因組學(xué)和社會科學(xué)研究中較為常用减宣。
10.樣條模型/SPline-based models(MARS等):主要用于流程建模。
11.馬爾可夫鏈和隨機過程(時間序列建模和預(yù)測建模的替代方法)
12.缺失數(shù)據(jù)插補方法及其假設(shè)(missFores,MICE)
13.生存分析/survival analysis(主要特點是考慮了每個觀測出現(xiàn)某一結(jié)局的時間長短)
14.混合建模
15.統(tǒng)計推理和組群測試