1.描述統(tǒng)計學(xué)
1.1 概括
描述數(shù)據(jù)集常用的5個指標(biāo)是:平均數(shù),中位數(shù)液茎,眾數(shù)太防,方差和標(biāo)準(zhǔn)分,這幾個指標(biāo)的含義:
平均值:算術(shù)平均數(shù)魔策,描述平均水平匈子。
中位數(shù):從小到大排列數(shù)據(jù),取中間位置的數(shù)據(jù)闯袒,描述中等水平虎敦。
眾數(shù):數(shù)據(jù)中出現(xiàn)最多的數(shù),描述一般水平搁吓。
方差:數(shù)據(jù)在整體變化過程中偏離平均值的幅度原茅,描述數(shù)據(jù)的離散程度
標(biāo)準(zhǔn)分:平均值和標(biāo)準(zhǔn)差計算出來的,標(biāo)準(zhǔn)分=(原始數(shù) - 平均值)/標(biāo)準(zhǔn)差堕仔;又叫標(biāo)準(zhǔn)化值擂橘。
1.1.1 集中趨勢 vs 離散趨勢
描述性統(tǒng)計是指運用制表和分類,圖形以及計筠概括性數(shù)據(jù)來描述數(shù)據(jù)的集中趨勢摩骨、離散趨勢通贞、偏度、峰度恼五。
1昌罩、缺失值填充:常用方法:剔除法、均值法灾馒、最小鄰居法茎用、比率回歸法、決策樹法。
2轨功、正態(tài)性檢驗:很多統(tǒng)計方法都要求數(shù)值服從或近似服從正態(tài)分布旭斥,所以之前需要進行正態(tài)性檢驗。常用方法:非參數(shù)檢驗的K-量檢驗古涧、P-P圖垂券、Q-Q圖、W檢驗羡滑、動差法菇爪。
集中趨勢在統(tǒng)計學(xué)中是指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點的位置所在柒昏。集中趨勢測度就是尋找數(shù)據(jù)水平的代表值或中心值凳宙。
常用的指標(biāo):平均數(shù)、中位數(shù)(分位數(shù))昙楚、眾數(shù)
平均值易受極端值影響近速,中位數(shù)和眾數(shù)不受極端值影響。
離中趨勢在統(tǒng)計學(xué)中是指一組數(shù)據(jù)向某一中心值分散的程度堪旧,它反映了各個數(shù)據(jù)遠離中心點的程度。從側(cè)面說明了集中趨勢測度的代表程度奖亚。
常用指標(biāo):極差淳梦、四分位距、平均差昔字、方差爆袍、標(biāo)準(zhǔn)差、離散系數(shù)
1.2 數(shù)據(jù)的計量尺度
定類尺度作郭、定序尺度陨囊、定距尺度、定比尺度
分類變量:定類尺度 夹攒、定序尺度
連續(xù)性變量:定距尺度 蜘醋、定尺度
1.3 數(shù)據(jù)分布形態(tài)
一組或一系列數(shù)字,落在坐標(biāo)圖里的形態(tài)特征咏尝。比如:正態(tài)分布压语。
數(shù)據(jù)分布形態(tài)的測度主要以正態(tài)分布為標(biāo)準(zhǔn)進行衡量。
指標(biāo): 偏態(tài)编检、峰度
1.4 分類變量和連續(xù)型變量的描述統(tǒng)計量
分類:頻數(shù) 百分比 累計頻數(shù)和累計百分比 眾數(shù)
連續(xù)型:均值 方差 偏度 峰度
2.推斷統(tǒng)計學(xué)
概率是用數(shù)值描述某件事情發(fā)生的可能性胎食。
如何計算概率?
可以根據(jù)經(jīng)驗值允懂,如:古典概型
數(shù)據(jù)分析:概率=事件發(fā)生數(shù)/總數(shù)厕怜,如幾何概型
獨立事件和相關(guān)事件:
例子:賭徒謬論——絕大多數(shù)賭徒傾向于相信之前的下注結(jié)果對當(dāng)前下注有影響,這是錯誤的,每一次下注都是相互獨立的
條件概率:已知某一事件A發(fā)生的條件下粥航,另一個事件B發(fā)生的概率稱為條件概率琅捏。記為:P(B|A)
大數(shù)定律:如果統(tǒng)計數(shù)據(jù)足夠大,那么事物出現(xiàn)的頻率就能夠無限接近他的期望躁锡。
大數(shù)定律論證了抽樣平均數(shù)趨近于總體平均數(shù)的趨勢
切比雪夫不等式
伯努利定理
中心極限定理論證了抽樣平均數(shù)和總體平均數(shù)的離差在一定范圍的概率問題午绳。
如何預(yù)防風(fēng)險
在資產(chǎn)安全上:投資你可支配資產(chǎn)的20%,本質(zhì)上已經(jīng)“押上全部”了
在人身安全上:買重大疾病險
3.假設(shè)檢驗
3.1 參數(shù)檢驗
參數(shù)檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(shù)(如均值映之、百分?jǐn)?shù)拦焚、方差、相關(guān)系數(shù)等)進行的檢驗 杠输。
1)U檢驗 使用條件:當(dāng)樣本含量n較大時赎败,樣本值符合正態(tài)分布
2)T檢驗 使用條件:當(dāng)樣本含量n較小時,樣本值符合正態(tài)分布
A??單樣本t檢驗:推斷該樣本來自的總體均數(shù)μ與已知的某一總體均數(shù)μ0 (常為理論值或標(biāo)準(zhǔn)值)有無差別蠢甲;
B??配對樣本t檢驗:當(dāng)總體均數(shù)未知時僵刮,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似鹦牛;
C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用搞糕。
3.2 非參數(shù)檢驗
非參數(shù)檢驗則不考慮總體分布是否已知,常常也不是針對總體參數(shù)曼追,而是針對總體的某些一股性假設(shè)(如總體分布的位罝是否相同窍仰,總體分布是否正態(tài))進行檢驗。
適用情況:順序類型的數(shù)據(jù)資料礼殊,這類數(shù)據(jù)的分布形態(tài)一般是未知的驹吮。
A 雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài)晶伦;
B 體分布雖然正態(tài)碟狞,數(shù)據(jù)也是連續(xù)類型,但樣本容量極小婚陪,如10以下族沃;
主要方法包括:卡方檢驗、秩和檢驗近忙、二項檢驗竭业、游程檢驗、K-量檢驗等及舍。
4.列聯(lián)表分析
用于分析離散變量或定型變量之間是否存在相關(guān)未辆。
對于二維表,可進行卡方檢驗锯玛,對于三維表咐柜,可作Mentel-Hanszel分層分析兼蜈。
列聯(lián)表分析還包括配對計數(shù)資料的卡方檢驗、行列均為順序變量的相關(guān)檢驗拙友。
5.相關(guān)分析
研究現(xiàn)象之間是否存在某種依存關(guān)系为狸,對具體有依存關(guān)系的現(xiàn)象探討相關(guān)方向及相關(guān)程度。
1遗契、單相關(guān): 兩個因素之間的相關(guān)關(guān)系叫單相關(guān)辐棒,即研究時只涉及一個自變量和一個因變量;
2牍蜂、復(fù)相關(guān) :三個或三個以上因素的相關(guān)關(guān)系叫復(fù)相關(guān)漾根,即研究時涉及兩個或兩個以上的自變量和因變量相關(guān);
3鲫竞、偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合辐怕,當(dāng)假定其他變量不變時,其中兩個變量之間的相關(guān)關(guān)系稱為偏相關(guān)从绘。
6.方差分析
使用條件:各樣本須是相互獨立的隨機樣本寄疏;各樣本來自正態(tài)分布總體;各總體方差相等僵井。
1陕截、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時批什,只分析一個因素與響應(yīng)變量的關(guān)系
2艘策、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應(yīng)變量的關(guān)系渊季,同時考慮多個影響因素之間的關(guān)系
3、多因素?zé)o交互方差分析:分析多個影響因素與響應(yīng)變量的關(guān)系罚渐,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系
4却汉、協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素荷并,使之影響了分祈結(jié)果的準(zhǔn)確度合砂。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應(yīng)進行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法源织,
https://zhuanlan.zhihu.com/p/33357167
7.回歸分析
a. 一元線性回歸分析:只有一個自變量X與因變量Y有關(guān)翩伪,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布谈息。
b. 多元線性回歸分析: 分析多個自變量與因變量Y的關(guān)系缘屹,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布 侠仇。
1)變呈篩選方式:選擇最優(yōu)回歸方程的變里篩選法包括全橫型法(CP法)轻姿、逐步回歸法犁珠,向前引入法和向后剔除法
2)橫型診斷方法:
A 殘差檢驗: 觀測值與估計值的差值要服從正態(tài)分布
B 強影響點判斷:尋找方式一般分為標(biāo)準(zhǔn)誤差法、Mahalanobis距離法
C 共線性診斷:
診斷方式:容忍度互亮、方差擴大因子法(又稱膨脹系數(shù)VIF)犁享、特征根判定法、條件指針CI豹休、方差比例
處理方法:增加樣本容量或選取另外的回歸如主成分回歸炊昆、嶺回歸等
c.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變里,且自變量和因變量呈線性關(guān)系威根,而Logistic回歸模型對因變量的分布沒有要求凤巨,一般用于因變量是離散時的情況
Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計是否用到了條件概率医窿。
d.其他回歸方法
非線性回歸磅甩、有序回歸、Probit回歸姥卢、加權(quán)回歸等
8.聚類分析
樣本個體或指標(biāo)變量按其具有的特性進行分類卷要,尋找合理的度量事物相似性的統(tǒng)計量。
8.1 性質(zhì)分類
Q型聚類分析:對樣本進行分類處理独榴,又稱樣本聚類分祈 使用距離系數(shù)作為統(tǒng)計量衡量相似度僧叉,如歐式距離、極端距離棺榔、絕對距離等
R型聚類分析:對指標(biāo)進行分類處理瓶堕,又稱指標(biāo)聚類分析 使用相似系數(shù)作為統(tǒng)計量衡量相似度,相關(guān)系數(shù)症歇、列聯(lián)系數(shù)等
8.2 方法分類
1)系統(tǒng)聚類法: 適用于小樣本的樣本聚類或指標(biāo)聚類郎笆,一般用系統(tǒng)聚類法來聚類指標(biāo),又稱分層聚類
2)逐步聚類法 :適用于大樣本的樣本聚類
3)其他聚類法 :兩步聚類忘晤、K均值聚類等
9.置信區(qū)間
為什么要引入?yún)^(qū)間估計: 總體的期望是客觀存在不會變的, 實際上均值等于期望的概率是0. 所以說, 以點估點是不準(zhǔn)確的, 有必要引入?yún)^(qū)間估計.
舉個例子, 你測試50m跑的時間, 測了十次, 均值是7s, 但是7s肯定不是你跑50m的時間期望, 因為你再跑10次, 均值可能是6.8s. 因此, 描述你跑50m的時間, 用[6.5, 7.5]似乎是個更好的方式. 注意這個區(qū)間不能太大, 太大了別人就不相信了, 比如你說你跑50m的時間在[1, 10]的范圍內(nèi), 肯定沒人信, 因為幾乎沒有人能在5s內(nèi)跑完50m.
如何理解95%的置信區(qū)間[6.5, 7.5]:
[錯誤的理解] 你跑了100次50m, 有95次所用的時間在[6.5, 7.5]的范圍內(nèi).
[正確的理解] 一天跑10次50m并計算均值, 你連續(xù)跑了100天, 有95天的均值被包含在[6.5, 7.5]的范圍內(nèi).
一言以蔽之: 樣本的均值有T%的可能性落在區(qū)間[M, N]內(nèi).
https://blog.csdn.net/back_to_dream/article/details/51361431
https://zhuanlan.zhihu.com/p/40762059
https://www.afenxi.com/2171.html
https://blog.csdn.net/pangtouyu_qy/article/details/79966323