統(tǒng)計大框架

1.描述統(tǒng)計學(xué)

1.1 概括

描述數(shù)據(jù)集常用的5個指標(biāo)是:平均數(shù),中位數(shù)液茎,眾數(shù)太防,方差和標(biāo)準(zhǔn)分,這幾個指標(biāo)的含義:

平均值:算術(shù)平均數(shù)魔策,描述平均水平匈子。
中位數(shù):從小到大排列數(shù)據(jù),取中間位置的數(shù)據(jù)闯袒,描述中等水平虎敦。
眾數(shù):數(shù)據(jù)中出現(xiàn)最多的數(shù),描述一般水平搁吓。
方差:數(shù)據(jù)在整體變化過程中偏離平均值的幅度原茅,描述數(shù)據(jù)的離散程度
標(biāo)準(zhǔn)分:平均值和標(biāo)準(zhǔn)差計算出來的,標(biāo)準(zhǔn)分=(原始數(shù) - 平均值)/標(biāo)準(zhǔn)差堕仔;又叫標(biāo)準(zhǔn)化值擂橘。

1.1.1 集中趨勢 vs 離散趨勢

描述性統(tǒng)計是指運用制表和分類,圖形以及計筠概括性數(shù)據(jù)來描述數(shù)據(jù)的集中趨勢摩骨、離散趨勢通贞、偏度、峰度恼五。
1昌罩、缺失值填充:常用方法:剔除法、均值法灾馒、最小鄰居法茎用、比率回歸法、決策樹法。
2轨功、正態(tài)性檢驗:很多統(tǒng)計方法都要求數(shù)值服從或近似服從正態(tài)分布旭斥,所以之前需要進行正態(tài)性檢驗。常用方法:非參數(shù)檢驗的K-量檢驗古涧、P-P圖垂券、Q-Q圖、W檢驗羡滑、動差法菇爪。

集中趨勢在統(tǒng)計學(xué)中是指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點的位置所在柒昏。集中趨勢測度就是尋找數(shù)據(jù)水平的代表值或中心值凳宙。
常用的指標(biāo):平均數(shù)、中位數(shù)(分位數(shù))昙楚、眾數(shù)
平均值易受極端值影響近速,中位數(shù)和眾數(shù)不受極端值影響。

離中趨勢在統(tǒng)計學(xué)中是指一組數(shù)據(jù)向某一中心值分散的程度堪旧,它反映了各個數(shù)據(jù)遠離中心點的程度。從側(cè)面說明了集中趨勢測度的代表程度奖亚。
常用指標(biāo):極差淳梦、四分位距、平均差昔字、方差爆袍、標(biāo)準(zhǔn)差、離散系數(shù)

image.png

1.2 數(shù)據(jù)的計量尺度

定類尺度作郭、定序尺度陨囊、定距尺度、定比尺度

分類變量:定類尺度 夹攒、定序尺度
連續(xù)性變量:定距尺度 蜘醋、定尺度

image.png

1.3 數(shù)據(jù)分布形態(tài)

一組或一系列數(shù)字,落在坐標(biāo)圖里的形態(tài)特征咏尝。比如:正態(tài)分布压语。
數(shù)據(jù)分布形態(tài)的測度主要以正態(tài)分布為標(biāo)準(zhǔn)進行衡量。
指標(biāo): 偏態(tài)编检、峰度

image.png

1.4 分類變量和連續(xù)型變量的描述統(tǒng)計量

分類:頻數(shù) 百分比 累計頻數(shù)和累計百分比 眾數(shù)
連續(xù)型:均值 方差 偏度 峰度

2.推斷統(tǒng)計學(xué)

概率是用數(shù)值描述某件事情發(fā)生的可能性胎食。

如何計算概率?
可以根據(jù)經(jīng)驗值允懂,如:古典概型
數(shù)據(jù)分析:概率=事件發(fā)生數(shù)/總數(shù)厕怜,如幾何概型

獨立事件和相關(guān)事件:
例子:賭徒謬論——絕大多數(shù)賭徒傾向于相信之前的下注結(jié)果對當(dāng)前下注有影響,這是錯誤的,每一次下注都是相互獨立的
條件概率:已知某一事件A發(fā)生的條件下粥航,另一個事件B發(fā)生的概率稱為條件概率琅捏。記為:P(B|A)

大數(shù)定律:如果統(tǒng)計數(shù)據(jù)足夠大,那么事物出現(xiàn)的頻率就能夠無限接近他的期望躁锡。
大數(shù)定律論證了抽樣平均數(shù)趨近于總體平均數(shù)的趨勢
切比雪夫不等式

image.png

伯努利定理

image.png

中心極限定理論證了抽樣平均數(shù)和總體平均數(shù)的離差在一定范圍的概率問題午绳。

image.png

image.png

如何預(yù)防風(fēng)險
在資產(chǎn)安全上:投資你可支配資產(chǎn)的20%,本質(zhì)上已經(jīng)“押上全部”了
在人身安全上:買重大疾病險

3.假設(shè)檢驗

3.1 參數(shù)檢驗

參數(shù)檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(shù)(如均值映之、百分?jǐn)?shù)拦焚、方差、相關(guān)系數(shù)等)進行的檢驗 杠输。
1)U檢驗 使用條件:當(dāng)樣本含量n較大時赎败,樣本值符合正態(tài)分布

2)T檢驗 使用條件:當(dāng)樣本含量n較小時,樣本值符合正態(tài)分布

A??單樣本t檢驗:推斷該樣本來自的總體均數(shù)μ與已知的某一總體均數(shù)μ0 (常為理論值或標(biāo)準(zhǔn)值)有無差別蠢甲;

B??配對樣本t檢驗:當(dāng)總體均數(shù)未知時僵刮,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似鹦牛;

C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用搞糕。

3.2 非參數(shù)檢驗

非參數(shù)檢驗則不考慮總體分布是否已知,常常也不是針對總體參數(shù)曼追,而是針對總體的某些一股性假設(shè)(如總體分布的位罝是否相同窍仰,總體分布是否正態(tài))進行檢驗。

適用情況:順序類型的數(shù)據(jù)資料礼殊,這類數(shù)據(jù)的分布形態(tài)一般是未知的驹吮。

A 雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài)晶伦;

B 體分布雖然正態(tài)碟狞,數(shù)據(jù)也是連續(xù)類型,但樣本容量極小婚陪,如10以下族沃;

主要方法包括:卡方檢驗、秩和檢驗近忙、二項檢驗竭业、游程檢驗、K-量檢驗等及舍。

4.列聯(lián)表分析

用于分析離散變量或定型變量之間是否存在相關(guān)未辆。
對于二維表,可進行卡方檢驗锯玛,對于三維表咐柜,可作Mentel-Hanszel分層分析兼蜈。
列聯(lián)表分析還包括配對計數(shù)資料的卡方檢驗、行列均為順序變量的相關(guān)檢驗拙友。

5.相關(guān)分析

研究現(xiàn)象之間是否存在某種依存關(guān)系为狸,對具體有依存關(guān)系的現(xiàn)象探討相關(guān)方向及相關(guān)程度。
1遗契、單相關(guān): 兩個因素之間的相關(guān)關(guān)系叫單相關(guān)辐棒,即研究時只涉及一個自變量和一個因變量;
2牍蜂、復(fù)相關(guān) :三個或三個以上因素的相關(guān)關(guān)系叫復(fù)相關(guān)漾根,即研究時涉及兩個或兩個以上的自變量和因變量相關(guān);
3鲫竞、偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合辐怕,當(dāng)假定其他變量不變時,其中兩個變量之間的相關(guān)關(guān)系稱為偏相關(guān)从绘。

6.方差分析

使用條件:各樣本須是相互獨立的隨機樣本寄疏;各樣本來自正態(tài)分布總體;各總體方差相等僵井。
1陕截、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時批什,只分析一個因素與響應(yīng)變量的關(guān)系
2艘策、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應(yīng)變量的關(guān)系渊季,同時考慮多個影響因素之間的關(guān)系
3、多因素?zé)o交互方差分析:分析多個影響因素與響應(yīng)變量的關(guān)系罚渐,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系
4却汉、協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素荷并,使之影響了分祈結(jié)果的準(zhǔn)確度合砂。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應(yīng)進行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法源织,
https://zhuanlan.zhihu.com/p/33357167

7.回歸分析

a. 一元線性回歸分析:只有一個自變量X與因變量Y有關(guān)翩伪,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布谈息。

b. 多元線性回歸分析: 分析多個自變量與因變量Y的關(guān)系缘屹,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布 侠仇。

1)變呈篩選方式:選擇最優(yōu)回歸方程的變里篩選法包括全橫型法(CP法)轻姿、逐步回歸法犁珠,向前引入法和向后剔除法

2)橫型診斷方法:

A 殘差檢驗: 觀測值與估計值的差值要服從正態(tài)分布
B 強影響點判斷:尋找方式一般分為標(biāo)準(zhǔn)誤差法、Mahalanobis距離法
C 共線性診斷:
診斷方式:容忍度互亮、方差擴大因子法(又稱膨脹系數(shù)VIF)犁享、特征根判定法、條件指針CI豹休、方差比例
處理方法:增加樣本容量或選取另外的回歸如主成分回歸炊昆、嶺回歸等

c.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變里,且自變量和因變量呈線性關(guān)系威根,而Logistic回歸模型對因變量的分布沒有要求凤巨,一般用于因變量是離散時的情況

Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計是否用到了條件概率医窿。

d.其他回歸方法
非線性回歸磅甩、有序回歸、Probit回歸姥卢、加權(quán)回歸等

8.聚類分析

樣本個體或指標(biāo)變量按其具有的特性進行分類卷要,尋找合理的度量事物相似性的統(tǒng)計量。

8.1 性質(zhì)分類

Q型聚類分析:對樣本進行分類處理独榴,又稱樣本聚類分祈 使用距離系數(shù)作為統(tǒng)計量衡量相似度僧叉,如歐式距離、極端距離棺榔、絕對距離等
R型聚類分析:對指標(biāo)進行分類處理瓶堕,又稱指標(biāo)聚類分析 使用相似系數(shù)作為統(tǒng)計量衡量相似度,相關(guān)系數(shù)症歇、列聯(lián)系數(shù)等

8.2 方法分類

1)系統(tǒng)聚類法: 適用于小樣本的樣本聚類或指標(biāo)聚類郎笆,一般用系統(tǒng)聚類法來聚類指標(biāo),又稱分層聚類
2)逐步聚類法 :適用于大樣本的樣本聚類
3)其他聚類法 :兩步聚類忘晤、K均值聚類等

9.置信區(qū)間

為什么要引入?yún)^(qū)間估計: 總體的期望是客觀存在不會變的, 實際上均值等于期望的概率是0. 所以說, 以點估點是不準(zhǔn)確的, 有必要引入?yún)^(qū)間估計.
舉個例子, 你測試50m跑的時間, 測了十次, 均值是7s, 但是7s肯定不是你跑50m的時間期望, 因為你再跑10次, 均值可能是6.8s. 因此, 描述你跑50m的時間, 用[6.5, 7.5]似乎是個更好的方式. 注意這個區(qū)間不能太大, 太大了別人就不相信了, 比如你說你跑50m的時間在[1, 10]的范圍內(nèi), 肯定沒人信, 因為幾乎沒有人能在5s內(nèi)跑完50m.
如何理解95%的置信區(qū)間[6.5, 7.5]:
[錯誤的理解] 你跑了100次50m, 有95次所用的時間在[6.5, 7.5]的范圍內(nèi).
[正確的理解] 一天跑10次50m并計算均值, 你連續(xù)跑了100天, 有95天的均值被包含在[6.5, 7.5]的范圍內(nèi).
一言以蔽之: 樣本的均值有T%的可能性落在區(qū)間[M, N]內(nèi).

https://blog.csdn.net/back_to_dream/article/details/51361431
https://zhuanlan.zhihu.com/p/40762059
https://www.afenxi.com/2171.html
https://blog.csdn.net/pangtouyu_qy/article/details/79966323

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宛蚓,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子设塔,更是在濱河造成了極大的恐慌凄吏,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件闰蛔,死亡現(xiàn)場離奇詭異痕钢,居然都是意外死亡,警方通過查閱死者的電腦和手機序六,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評論 3 385
  • 文/潘曉璐 我一進店門任连,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人难咕,你說我怎么就攤上這事课梳【嗔荆” “怎么了?”我有些...
    開封第一講書人閱讀 157,435評論 0 348
  • 文/不壞的土叔 我叫張陵暮刃,是天一觀的道長跨算。 經(jīng)常有香客問我,道長椭懊,這世上最難降的妖魔是什么诸蚕? 我笑而不...
    開封第一講書人閱讀 56,509評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮氧猬,結(jié)果婚禮上背犯,老公的妹妹穿的比我還像新娘。我一直安慰自己盅抚,他們只是感情好漠魏,可當(dāng)我...
    茶點故事閱讀 65,611評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著妄均,像睡著了一般柱锹。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上丰包,一...
    開封第一講書人閱讀 49,837評論 1 290
  • 那天禁熏,我揣著相機與錄音,去河邊找鬼邑彪。 笑死瞧毙,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的寄症。 我是一名探鬼主播宙彪,決...
    沈念sama閱讀 38,987評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼有巧!你這毒婦竟也來了您访?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,730評論 0 267
  • 序言:老撾萬榮一對情侶失蹤剪决,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后檀训,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體柑潦,經(jīng)...
    沈念sama閱讀 44,194評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,525評論 2 327
  • 正文 我和宋清朗相戀三年峻凫,在試婚紗的時候發(fā)現(xiàn)自己被綠了渗鬼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,664評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡荧琼,死狀恐怖譬胎,靈堂內(nèi)的尸體忽然破棺而出差牛,到底是詐尸還是另有隱情,我是刑警寧澤堰乔,帶...
    沈念sama閱讀 34,334評論 4 330
  • 正文 年R本政府宣布偏化,位于F島的核電站,受9級特大地震影響镐侯,放射性物質(zhì)發(fā)生泄漏侦讨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,944評論 3 313
  • 文/蒙蒙 一苟翻、第九天 我趴在偏房一處隱蔽的房頂上張望韵卤。 院中可真熱鬧,春花似錦崇猫、人聲如沸沈条。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,764評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蜡歹。三九已至,卻和暖如春汞扎,著一層夾襖步出監(jiān)牢的瞬間季稳,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,997評論 1 266
  • 我被黑心中介騙來泰國打工澈魄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留景鼠,地道東北人。 一個月前我還...
    沈念sama閱讀 46,389評論 2 360
  • 正文 我出身青樓痹扇,卻偏偏與公主長得像铛漓,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鲫构,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,554評論 2 349

推薦閱讀更多精彩內(nèi)容