《數(shù)據(jù)分析的統(tǒng)計(jì)基礎(chǔ)》的讀書(shū)筆記
作 ? ?者:經(jīng)管之家碾褂、曹正鳳
出版社:電子工業(yè)出版社
版 ? ?次:2015年2月第1次出版
作者簡(jiǎn)介:
經(jīng)管之家:原人大經(jīng)濟(jì)論壇囤躁,于2003年成立哩治。經(jīng)管之家從2006年起在國(guó)內(nèi)最早開(kāi)展數(shù)據(jù)分析培訓(xùn)教材豁生,累計(jì)培訓(xùn)學(xué)員數(shù)萬(wàn)人碧囊。在大數(shù)據(jù)的趨勢(shì)背景下帚桩,創(chuàng)立“CDA數(shù)據(jù)分析師”品牌,致力于為社會(huì)各界數(shù)據(jù)分析愛(ài)好者提供最優(yōu)質(zhì)吧雹、最科學(xué)骨杂、最系統(tǒng)的數(shù)據(jù)分析教育。
曹正鳳:統(tǒng)計(jì)學(xué)博士雄卷,經(jīng)管之家大數(shù)據(jù)中心總工程師腊脱,經(jīng)管之家CDA大數(shù)據(jù)分析師培訓(xùn)負(fù)責(zé)人,北京博宇科技有限公司技術(shù)總監(jiān)龙亲。致力于大數(shù)據(jù)分析前沿領(lǐng)域研究陕凹,主持人大經(jīng)濟(jì)論壇基于Hadoop架構(gòu)的論壇主題歌推薦系統(tǒng)項(xiàng)目悍抑。
本書(shū)的重點(diǎn)內(nèi)容和理解:
第1章 ?數(shù)據(jù)分析概述
1、什么是數(shù)據(jù)分析杜耙?
數(shù)據(jù)分析的三方面:第一搜骡、目標(biāo)。數(shù)據(jù)分析的關(guān)鍵在于設(shè)立目標(biāo)佑女,專業(yè)上叫作“有針對(duì)性”记靡,其實(shí)就是對(duì)業(yè)務(wù)需求的把握;第二团驱、方法摸吠。數(shù)據(jù)分析的方法包括描述性分析、統(tǒng)計(jì)分析嚎花、數(shù)據(jù)挖掘和大數(shù)據(jù)分析四種寸痢。不同的分析方法所使用的情景和功能都是不一樣的,這需要在做數(shù)據(jù)分析時(shí)結(jié)合具體的情況選擇使用紊选。第三啼止、結(jié)果。數(shù)據(jù)分析的最終要得出分析的結(jié)果兵罢,結(jié)果對(duì)目標(biāo)解釋的強(qiáng)弱献烦,結(jié)果的應(yīng)用效果如果。
數(shù)據(jù)分析是指通過(guò)某種方法和技巧對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行探索卖词、分析巩那,從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律等分析結(jié)果此蜈,為特定的研究或商業(yè)目的提供參考即横。
2、數(shù)據(jù)分析的六部曲:明確分析目的和內(nèi)容舶替、數(shù)據(jù)收集令境、數(shù)據(jù)預(yù)處理杠园、數(shù)據(jù)分析顾瞪、數(shù)據(jù)展現(xiàn)和報(bào)告撰寫(xiě)六個(gè)步驟。
1)明確分析目的和內(nèi)容抛蚁〕滦眩回答:數(shù)據(jù)分析的對(duì)象是誰(shuí)?數(shù)據(jù)分析的商業(yè)目的是什么瞧甩?最后的結(jié)果是解決什么樣的業(yè)務(wù)問(wèn)題钉跷?對(duì)數(shù)據(jù)分析目的的把握,是數(shù)據(jù)分析項(xiàng)目成敗的關(guān)鍵。
2)數(shù)據(jù)收集:通常數(shù)據(jù)收集方法包括觀察法乾闰、訪談法酒贬、問(wèn)卷法滑废、測(cè)驗(yàn)法和數(shù)據(jù)庫(kù)獲取法等碟贾。在商業(yè)數(shù)據(jù)收集的一般來(lái)源于數(shù)據(jù)庫(kù)赏迟,也就是直接到數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)艘希,該辦法需要使用到數(shù)據(jù)庫(kù)工具---SQL語(yǔ)言书释。對(duì)于數(shù)據(jù)分析師來(lái)說(shuō)血当,只需要掌握如何查詢數(shù)據(jù)的語(yǔ)法就可以了幻赚,無(wú)法完全掌握所有SQL語(yǔ)言的語(yǔ)法。
3)數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理是指對(duì)收集到的數(shù)據(jù)進(jìn)行加工臊旭、整理落恼,以便開(kāi)展數(shù)據(jù)分析,它是數(shù)據(jù)分析前必不可少的階段离熏。包括數(shù)據(jù)審查佳谦、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗(yàn)證四個(gè)步驟撤奸。
3.1)數(shù)據(jù)審查:如:檢查各個(gè)變量的數(shù)據(jù)類型吠昭,變量值的最大值、最小值胧瓜、平均數(shù)矢棚、中位數(shù),數(shù)據(jù)個(gè)數(shù)府喳、缺失值或空值個(gè)數(shù)等蒲肋。
3.2)數(shù)據(jù)清理:對(duì)數(shù)據(jù)審查過(guò)程中發(fā)現(xiàn)的明顯錯(cuò)誤錯(cuò)、缺失值钝满、異常值兜粘、可疑數(shù)據(jù),選用適當(dāng)?shù)姆椒ㄟM(jìn)行“清理”弯蚜,使“臟”數(shù)據(jù)變成“干凈”數(shù)據(jù)孔轴,保證后續(xù)的數(shù)據(jù)分析得到可靠的結(jié)論。當(dāng)然碎捺,數(shù)據(jù)清理還包括對(duì)重復(fù)記錄進(jìn)行刪除路鹰。
3.3)數(shù)據(jù)轉(zhuǎn)換:強(qiáng)調(diào)分析對(duì)象的可比性,但不同變量值由于計(jì)量單位不同收厨,往往造成數(shù)據(jù)不可比晋柱。在分析前對(duì)數(shù)據(jù)進(jìn)行變換,包括無(wú)量綱化處理诵叁、線性變換雁竞、匯總和聚集、適度概化拧额、規(guī)范化碑诉、以及屬性構(gòu)造等彪腔。
3.4)數(shù)據(jù)驗(yàn)證:可以利用簡(jiǎn)單的線性模型及散點(diǎn)圖、直方圖进栽、折線圖等圖形進(jìn)行探索性分析漫仆,利用相關(guān)分析、一致性檢驗(yàn)等方法對(duì)數(shù)據(jù)的準(zhǔn)確性進(jìn)行驗(yàn)證泪幌,確保不把錯(cuò)誤和有偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析模型中盲厌。
數(shù)據(jù)預(yù)處理階段在整個(gè)數(shù)據(jù)分析過(guò)程中占據(jù)極為重要的位置,從工作量上看祸泪,它占數(shù)據(jù)分析全部工作量的30%~50%吗浩,因?yàn)樵跀?shù)據(jù)分析時(shí),我們根據(jù)數(shù)據(jù)分析的目標(biāo)没隘,不是一次性就能把問(wèn)題解決的懂扼,而是需要反復(fù)去取數(shù)據(jù)、清洗數(shù)據(jù)右蒲,將業(yè)務(wù)邏輯轉(zhuǎn)變成可被分析的量化的數(shù)據(jù)阀湿。如SPSS軟件中的數(shù)據(jù)探索功能。
4)數(shù)據(jù)分析:其一要熟悉常用的數(shù)據(jù)分析方法瑰妄,最基本的是要了解例如方差陷嘴、回歸、因子间坐、聚類灾挨、分類、時(shí)間序列等數(shù)據(jù)分析方法的原理竹宋、使用范圍劳澄、優(yōu)缺點(diǎn)和結(jié)果和解釋;其二要熟悉1+1種數(shù)據(jù)分析工具蜈七。其中一種數(shù)據(jù)分析工具是指EXCEL秒拔,它是一個(gè)常用也是最簡(jiǎn)單的數(shù)據(jù)分析工具。當(dāng)我們對(duì)EXCEL增加新的插件后飒硅,就可以進(jìn)行數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘了砂缩。由于EXCEL是一個(gè)大眾化的數(shù)據(jù)分析工具,使用它不太嚴(yán)謹(jǐn)狡相。另一種數(shù)據(jù)分析工具是要熟悉一個(gè)專業(yè)的分析軟件梯轻,便于進(jìn)行專業(yè)的數(shù)據(jù)分析食磕、數(shù)據(jù)建模等尽棕。如SPSS、SAS彬伦、MATLAB滔悉、R等伊诵。
5)數(shù)據(jù)展現(xiàn):常用的圖形包括餅形圖、折線圖回官、柱形圖曹宴、條形圖、散點(diǎn)圖歉提、雷達(dá)圖笛坦、金字塔圖、矩陣圖苔巨、漏斗圖等版扩。
6)報(bào)告撰寫(xiě):首先需要有一個(gè)好的分析框架,并且結(jié)構(gòu)清晰侄泽、主次分明礁芦、圖文并茂,能夠讓讀者一目了然悼尾。結(jié)構(gòu)清晰柿扣、主次分明可以使閱讀者正確理解報(bào)告內(nèi)容。圖文并茂可以令數(shù)據(jù)更加生動(dòng)闺魏、活潑未状,提高視覺(jué)沖擊力,有助于讀者更形象析桥、直觀地看清楚問(wèn)題和結(jié)論娩践,從而產(chǎn)生思考。
3烹骨、數(shù)據(jù)分析方法簡(jiǎn)介
1)單純的數(shù)據(jù)加工方法---SQL翻伺、EXCEL。
2)基于數(shù)理統(tǒng)計(jì)的數(shù)據(jù)分析方法論---SPSS Statistics沮焕、SAS EG等工具實(shí)現(xiàn)
2.1)方差分析:又稱“變異數(shù)分析”吨岭、“F檢驗(yàn)”,它是用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)峦树。方差分析是從觀測(cè)變量的方差入手辣辫,研究諸多控制變量中哪些變量是對(duì)觀測(cè)變量有顯著影響的變量。
2.2)回歸分析:是確定兩個(gè)或兩個(gè)以上變量之間想到依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法魁巩。分為一元線性回歸和非線性回歸分析急灭。
2.3)因子分析:指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。
3)基于數(shù)據(jù)挖掘的數(shù)據(jù)分析方法:SPSS Modeler谷遂、SAS EM和R軟件葬馋。
3.1)聚類分析:是一種探索性的分析,在分類的過(guò)程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn)畴嘶,聚類分析能夠從樣本數(shù)據(jù)出發(fā)蛋逾,自動(dòng)進(jìn)行分類。
3.2)分類分析
3.2.1)決策樹(shù):CART和CHAID窗悯,這些算法的不同之處都是在生成決策樹(shù)過(guò)程中区匣,樹(shù)干分支成多個(gè)枝葉時(shí)分枝規(guī)則的生成函數(shù)。優(yōu)點(diǎn):可以生成可理解的規(guī)則蒋院;計(jì)算量相對(duì)來(lái)說(shuō)不是很大亏钩;可以處理連續(xù)和離散變量;決策樹(shù)可以清晰地顯示出哪些變量比較重要欺旧。缺點(diǎn):對(duì)連續(xù)性的變量比較很預(yù)測(cè)铸屉;當(dāng)類別太多時(shí),錯(cuò)誤可能會(huì)增加得比較快切端;一般的算法在分類時(shí)彻坛,僅根據(jù)一個(gè)屬性來(lái)進(jìn)行分類;不是全局最優(yōu)踏枣。
3.2.2)人工神經(jīng)網(wǎng)絡(luò):ANNs昌屉。就是通過(guò)輸入多個(gè)非線性模型及不同模型之間的加權(quán)互聯(lián)(加權(quán)的過(guò)程在隱蔽層完成),最終得到一個(gè)輸出模型茵瀑。BP神經(jīng)網(wǎng)絡(luò)间驮。特點(diǎn):可以充分逼迫任意復(fù)雜的非線性關(guān)系;可學(xué)習(xí)和自適應(yīng)不知道或不確定的系統(tǒng)马昨;能夠同時(shí)處理定量竞帽、定性知識(shí)。
3.2.3)貝葉斯分類方法:
3.2.4)支持向量機(jī):與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)技術(shù)相比鸿捧,支持向量機(jī)不僅結(jié)構(gòu)簡(jiǎn)單屹篓,而且各項(xiàng)技術(shù)的性能也明顯提升了,因此它成為機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)之一匙奴。
3.3)關(guān)聯(lián)規(guī)則:應(yīng)用關(guān)聯(lián)規(guī)則最經(jīng)典的案例就是購(gòu)物籃分析堆巧,通過(guò)分析顧客購(gòu)物籃中商品之間的關(guān)聯(lián),可以挖掘顧客的購(gòu)物習(xí)慣泼菌,從而幫助零售商更好地制定有針對(duì)性的營(yíng)銷策略谍肤。
3.4)回歸分析:多元線性回歸主要描述一個(gè)因變量如何隨著一批自變量的變化而變化。
4)基于大數(shù)據(jù)的數(shù)據(jù)分析方法
基于大數(shù)據(jù)的數(shù)據(jù)分析方法的理論基礎(chǔ)是數(shù)據(jù)挖掘和分布式計(jì)算原理哗伯。大數(shù)據(jù)技術(shù)要解決兩個(gè)重要的現(xiàn)實(shí)問(wèn)題:一是要解決海量數(shù)據(jù)在多臺(tái)計(jì)算機(jī)上的存儲(chǔ)荒揣;二是要解決如何在多臺(tái)機(jī)器上存儲(chǔ)的數(shù)據(jù)進(jìn)行分析。Hadoop是一個(gè)分布式的計(jì)算系統(tǒng)焊刹。Yahoo系任、Facebook恳蹲、Amazon以及國(guó)內(nèi)的百度、阿里巴巴等眾多互聯(lián)網(wǎng)公司都以Hadhoop為基礎(chǔ)搭建自己的分布式計(jì)算系統(tǒng)赋除。
5)數(shù)理統(tǒng)計(jì)與數(shù)據(jù)挖掘的區(qū)別和聯(lián)系
5.1)數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)挖掘的聯(lián)系:從兩者的理論來(lái)源來(lái)看,它們都來(lái)源于統(tǒng)計(jì)基礎(chǔ)理論非凌,因此它們的很多方法在很多情況下都是同根同源的举农。
5.2)數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)挖掘的區(qū)別:數(shù)據(jù)統(tǒng)計(jì)在預(yù)測(cè)中的應(yīng)用常表現(xiàn)為一個(gè)或一組函數(shù)關(guān)系式,而數(shù)據(jù)挖掘在預(yù)測(cè)應(yīng)用中的重點(diǎn)在于預(yù)測(cè)的結(jié)果敞嗡,很多時(shí)候并不會(huì)從結(jié)果中產(chǎn)生明確的函數(shù)關(guān)系式颁糟,有時(shí)候甚至不知道到底是哪些變量在起作用,又是如何起作用的喉悴。
正確的思路和方法應(yīng)該是:針對(duì)具體的業(yè)務(wù)分析需求棱貌,先確定分析思路,然后根據(jù)這個(gè)分析思路去挑選和匹配合適的分析算法箕肃、分析技術(shù)婚脱,而且一個(gè)具體的分析需求一般都會(huì)有兩種以上不同的思路和算法可以去探索,最后可以根據(jù)驗(yàn)證的效果和資源匹配等一系列因素進(jìn)行綜合權(quán)衡勺像,從而決定最終的思路障贸、算法和解決方案。
第2章 描述性統(tǒng)計(jì)分析
1吟宦、直方圖
1.1 什么是直方圖篮洁?由一批長(zhǎng)方形構(gòu)成,通過(guò)長(zhǎng)方形的面積(頻率)或高度(頻數(shù))來(lái)代表對(duì)應(yīng)組在數(shù)據(jù)中所占的比例殃姓。
1.2 如何看直方圖袁波?觀看直方圖的關(guān)鍵是看區(qū)間對(duì)應(yīng)面積的大小。在頻率直方圖中蜗侈,長(zhǎng)方形的面積可以看成該區(qū)間中三國(guó)人物的密集程度篷牌,長(zhǎng)方形的面積越大,說(shuō)明三國(guó)人物在該區(qū)間的人數(shù)越多踏幻。
1.3 如何畫(huà)直方圖娃磺?第一步對(duì)數(shù)據(jù)進(jìn)行分區(qū)(注:小組區(qū)間包含左端點(diǎn),但不包含右端點(diǎn)叫倍。最后一個(gè)區(qū)間包含右端點(diǎn))偷卧。第二步畫(huà)一條水平軸(注:水平軸的畫(huà)法需要注意平均分布);第二步畫(huà)長(zhǎng)方形吆倦。
2听诸、數(shù)據(jù)的計(jì)量尺度
數(shù)據(jù)的計(jì)量尺度是指對(duì)計(jì)量對(duì)象量化時(shí)采用的具體標(biāo)準(zhǔn),它分為四類:定類尺度蚕泽、定序尺度晌梨、定距尺度桥嗤、定比尺度。定類尺度比如:性別仔蝌、民族泛领、職業(yè);定序尺度比如:職稱敛惊、健康狀況渊鞋、質(zhì)量等級(jí);定距尺度比如:攝氏溫度瞧挤、緯度锡宋;定比尺度:質(zhì)量、長(zhǎng)度特恬、能量执俩。
3、數(shù)據(jù)的集中趨勢(shì):集中趨勢(shì)在統(tǒng)計(jì)學(xué)中是指一組數(shù)據(jù)向某一中心值靠攏的程度癌刽。
3.1 ?平均數(shù)役首。為了消除極端值對(duì)平均數(shù)的影響也可根據(jù)實(shí)際情況去掉極端值。
3.2 分位數(shù)显拜。有百分位數(shù)宋税、四分位數(shù)和中位數(shù)。中位數(shù)是一種特殊的四分位數(shù)讼油。一組數(shù)據(jù)按大小順序排列后杰赛,處在數(shù)據(jù)中位置的數(shù)值,則被稱為中位數(shù)矮台。
3.3 眾數(shù)乏屯。是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值。
4瘦赫、數(shù)據(jù)的離中趨勢(shì)
4.1 極差辰晕。是一組數(shù)據(jù)中的最大值與最小值的差距。利用極差有助于及時(shí)發(fā)現(xiàn)問(wèn)題确虱,以便采取措施含友,保證產(chǎn)品質(zhì)量。
4.2 分位距校辩。是對(duì)極差的一種改進(jìn)窘问,它是從一組數(shù)據(jù)中剔除了一部分極端值之后重新計(jì)算的類似于全距的指標(biāo)。有四分位距宜咒,八分位距和十分位距惠赫。四分位距=第三個(gè)四分位數(shù)-第一個(gè)四分位數(shù)。
4.3 平均差故黑。是數(shù)據(jù)組中各數(shù)據(jù)值與其算術(shù)平均數(shù)離差絕對(duì)值的算術(shù)平均數(shù)儿咱。
4.4 方差與標(biāo)準(zhǔn)差庭砍。是數(shù)據(jù)組中各數(shù)據(jù)值與其算術(shù)平均數(shù)離差平方的算術(shù)平均數(shù)。標(biāo)準(zhǔn)差是用平方法消除離差的正負(fù)號(hào)混埠,然后對(duì)離差的平方計(jì)算算術(shù)平均數(shù)怠缸,并開(kāi)方出標(biāo)準(zhǔn)差,這既克服了平均差計(jì)算中用絕對(duì)值取消離差正負(fù)帶來(lái)的弊病钳宪,又增加子指標(biāo)本身的“靈敏度”揭北,這些優(yōu)點(diǎn)使它成為各種離中趨勢(shì)指標(biāo)中最重要的一種。
4.5 離散系統(tǒng):極差使套、平均數(shù)罐呼、標(biāo)準(zhǔn)差都是對(duì)數(shù)據(jù)的離中趨勢(shì)進(jìn)行絕對(duì)或平均差異的測(cè)定鞠柄。在通常情況下侦高,他們都帶有計(jì)量單位,而且其離中趨勢(shì)大小與變量平均水平的高低有關(guān)厌杜。常用的離散系統(tǒng)指標(biāo)是標(biāo)準(zhǔn)差系統(tǒng)奉呛。
例子:由于甲、乙兩班成績(jī)的平均值和標(biāo)準(zhǔn)差都不一樣夯尽,無(wú)法使用標(biāo)準(zhǔn)差來(lái)比較哪個(gè)班的波動(dòng)瞧壮,因此必須使用離散系統(tǒng)來(lái)判斷。從計(jì)算可以看出匙握,乙小于甲咆槽,所以乙的成績(jī)波動(dòng)小一些,則其班級(jí)的平均成績(jī)更有代表性圈纺。
5秦忿、數(shù)據(jù)分布的測(cè)定:數(shù)據(jù)分布就是指當(dāng)把取得的數(shù)據(jù)按某種分組畫(huà)出直方圖后,將每個(gè)直方圖的上邊的中點(diǎn)用一根曲線連接在一也即擬合一根曲線蛾娶。各種數(shù)據(jù)有不同的數(shù)據(jù)分布曲線灯谣,在統(tǒng)計(jì)學(xué)中,有一個(gè)常用的數(shù)據(jù)分布蛔琅,叫作正態(tài)分布胎许。在描述性統(tǒng)計(jì)中,數(shù)據(jù)分布形態(tài)的測(cè)定主要以正態(tài)分布為標(biāo)準(zhǔn)進(jìn)行衡量罗售。
5.1 數(shù)據(jù)偏態(tài)及其測(cè)定辜窑。數(shù)據(jù)分布的不對(duì)稱性稱作偏態(tài)。偏態(tài)是指數(shù)據(jù)分布的偏斜方向和程度寨躁。如果眾數(shù)在左邊谬擦,平均數(shù)在右邊,即數(shù)據(jù)的極端值在右邊朽缎,數(shù)據(jù)分布曲線向右延伸惨远,則稱為右向偏態(tài)谜悟。
5.2 數(shù)據(jù)峰度及其測(cè)定。峰度是指數(shù)據(jù)分布的類峭程度或峰凸程度北秽。根據(jù)變量值的集中與分散程度葡幸,峰度一般可表現(xiàn)為三種形態(tài):尖頂峰度、平頂峰度和標(biāo)準(zhǔn)峰度贺氓。
5.3 數(shù)據(jù)的偏度和峰度的作用蔚叨。第一、將偏度和峰度結(jié)合起來(lái)用于檢查樣本的分布是否屬于正態(tài)分布辙培。以便判斷總體的分布蔑水。如果樣的偏度系統(tǒng)接近于0而峰度系統(tǒng)接近于3,就可以推斷總體的分布是接近于正態(tài)分布的扬蕊。第二搀别、利用資料之間存在的偏度關(guān)系,對(duì)算術(shù)平均數(shù)尾抑、眾數(shù)歇父、中位數(shù)進(jìn)行推算。
6再愈、數(shù)據(jù)的展示----統(tǒng)計(jì)圖(條形圖榜苫、餅圖、折線圖翎冲、莖葉圖垂睬、箱線圖、直方圖)
6.1 面對(duì)一組數(shù)據(jù)抗悍,選擇恰當(dāng)?shù)慕y(tǒng)計(jì)圖來(lái)表達(dá)數(shù)據(jù)分析的目的驹饺,是數(shù)據(jù)分析人員必須要掌握的一種技能。統(tǒng)計(jì)圖使用注意事項(xiàng):1)圖是語(yǔ)言的一種重要形式檐春,如果運(yùn)用得當(dāng)逻淌,則比起表格來(lái)更能明快清晰地進(jìn)行溝通;2)決定統(tǒng)計(jì)圖形式的不是數(shù)據(jù)疟暖,也不是尺寸卡儒,而是你想說(shuō)明的主題和你想指出的內(nèi)容要點(diǎn);3)統(tǒng)計(jì)圖在于精俐巴,而不在于多骨望,只有當(dāng)統(tǒng)計(jì)圖能夠幫助你表達(dá)所想的主題時(shí)才使用;4)統(tǒng)計(jì)圖是直觀教具欣舵,它不能取代書(shū)寫(xiě)和講述擎鸠,只有在幫助你傳達(dá)主題時(shí),它才起作用缘圈。
6.2 使用EXCEL分別實(shí)現(xiàn)三個(gè)國(guó)家人物武力描述性統(tǒng)計(jì)分析
1)在集中趨勢(shì)方面劣光,看平均值袜蚕、中位數(shù)和眾數(shù),吳國(guó)人物的此三個(gè)數(shù)值都較大绢涡,說(shuō)明從平均水平看吳國(guó)人物的武力在其他兩個(gè)國(guó)家之上牲剃。
2)在離中趨勢(shì)方面,由于平均值和標(biāo)準(zhǔn)差都不一樣雄可,只能看離散系統(tǒng)凿傅,吳國(guó)人物武力的離散系統(tǒng)最小,則其數(shù)據(jù)變化最小数苫,說(shuō)明其武將之間的武力差距不大聪舒。
3)在數(shù)據(jù)分布方面,吳國(guó)的偏度最大虐急,說(shuō)明其人物武力分布左偏明顯箱残。
將三者結(jié)合起來(lái)看,吳國(guó)人物的數(shù)據(jù)總體表現(xiàn)還不錯(cuò)戏仓,但這使我們產(chǎn)生了一個(gè)疑問(wèn):在三國(guó)時(shí)間應(yīng)該是吳國(guó)勢(shì)力偏弱(這是業(yè)務(wù)背景)疚宇,但這里的數(shù)據(jù)表現(xiàn)一個(gè)相反的結(jié)論亡鼠,肯定是分析過(guò)程中存在沒(méi)有考慮到的因素赏殃。這是數(shù)據(jù)分析過(guò)程中經(jīng)常出現(xiàn)的現(xiàn)象,即在初步分析結(jié)束后间涵,沒(méi)有得到想要得到的結(jié)果仁热,這時(shí)候需要對(duì)業(yè)務(wù)背景更加熟悉,進(jìn)行進(jìn)一步的分析和思考勾哩。此處抗蠢,由于吳國(guó)人物左偏明顯,吳國(guó)的文官對(duì)均值影響較大思劳,而在比較武力時(shí)迅矛,最好不要考慮文官。上述分析沒(méi)有考慮到人物屬性因素潜叛,即此人物是武將還是文官秽褒。因此,接下來(lái)我們只分析三個(gè)國(guó)家武裝的武力數(shù)據(jù)威兜,將文官的數(shù)據(jù)剔除销斟,進(jìn)行進(jìn)一步的分析。
第3章 數(shù)據(jù)理統(tǒng)計(jì)基礎(chǔ)
1椒舵、抽樣估計(jì)基礎(chǔ)
1.1 隨機(jī)事件
1.1.1 隨機(jī)現(xiàn)象:結(jié)果不止一個(gè)蚂踊,哪一個(gè)結(jié)果出現(xiàn)事先不知道。
1.1.2 樣本空間:是隨機(jī)現(xiàn)象的一切可能結(jié)果組成的集合
1.1.3 隨機(jī)事件:隨機(jī)現(xiàn)象的一次發(fā)生笔宿。隨機(jī)事件是樣本空間的一個(gè)子集犁钟。
1.2 ?隨機(jī)事件的概率:是隨機(jī)事件出現(xiàn)的可能性的度量棱诱,它是概率論中最基本的概念之一。
1.2.1 條件概率:在事件B發(fā)生的條件下涝动,事件A發(fā)生的概率稱為事件A在事件B已發(fā)生條件下的條件概率军俊。記作P(A|B)。當(dāng)P(A|B)=P(AB)/P(B)捧存;當(dāng)P(B)=0時(shí)粪躬,規(guī)定P(A|B)=0。
如:某家庭中有兩個(gè)孩子昔穴,問(wèn)兩個(gè)孩子都是女孩的概率為多大镰官?1/4;
某家庭中有兩個(gè)孩子吗货,已知其中一個(gè)是女孩泳唠,問(wèn)兩個(gè)孩子都是女孩的概率為多大?1/3宙搬;
某家庭中有兩個(gè)孩子笨腥,已知老大是女孩,問(wèn)兩個(gè)孩子都是女孩的概率為多大勇垛?1/2脖母;
可以看出,隨著條件地增加闲孤,隨機(jī)事件A的條件概率也在增加谆级,這也就是為什么人們?cè)跀?shù)據(jù)分析時(shí),希望盡可能多地知道研究目標(biāo)的信息讼积。
1.2.2 相互獨(dú)立事件肥照。如果事件A與事件B滿足P(A)=P(A|B),則稱事件A關(guān)于事件B是獨(dú)立的勤众。在實(shí)際的數(shù)據(jù)分析中舆绎,往往根據(jù)問(wèn)題的實(shí)際意義去判斷兩個(gè)隨機(jī)事件是否獨(dú)立。
1.3 隨機(jī)變量及其概率分布
1.3.1 隨機(jī)變量们颜。用來(lái)表示隨機(jī)現(xiàn)象結(jié)果的變量被稱為隨機(jī)變量吕朵,常用大寫(xiě)字母X、Y掌桩、Z...表示边锁,也有用希臘字母ζ、η波岛、ξ...表示渺杉。分為離散型隨機(jī)變量和連續(xù)隨機(jī)變量碱蒙。
1.3.2 隨機(jī)變量的概率分布
離散隨機(jī)變量分布的特點(diǎn):1君旦、一個(gè)隨機(jī)變量的概率都在0和1之間取值。2曹鸠、所有隨機(jī)變量的概率之和為1。一旦概率分布確定了斥铺,那么隨機(jī)現(xiàn)象就從不規(guī)律變得有規(guī)律了彻桃。
連續(xù)隨機(jī)變量分布的特點(diǎn):用概率密度曲線來(lái)表示。
1.4 隨機(jī)變量的數(shù)字特征
1.4.1 隨機(jī)變量的數(shù)字期望:隨機(jī)變量按概率的加權(quán)平均晾蜘,表征其概率分布的中心位置邻眷,反映隨機(jī)變量平均取值的大小。又稱為隨機(jī)變量的期望或均值剔交。
1.4.2 隨機(jī)變量的方差和標(biāo)準(zhǔn)差肆饶。方差用來(lái)表示隨機(jī)變量概率分布的散布大小。方差大意味著隨機(jī)變量的取值分布較寬岖常,較分散驯镊,方差小意味著隨機(jī)變量的取值分布較窄、較集中竭鞍。
2板惑、正態(tài)分布及三大分布:在進(jìn)行數(shù)據(jù)分布時(shí),大部分的分析對(duì)象都表現(xiàn)出一種正態(tài)分布的形態(tài)偎快,因此數(shù)據(jù)分析師們?cè)谟脭?shù)據(jù)統(tǒng)計(jì)的分析方法進(jìn)行數(shù)據(jù)分布時(shí)冯乘,必須要掌握來(lái)自正態(tài)總體的分布。其中主要包括正態(tài)分布滨砍、卡方分布往湿、T分布和F分布妖异。
2.1 正態(tài)分布的概率密度函數(shù):在相同條件下惋戏,我們隨機(jī)地對(duì)某一測(cè)試對(duì)象進(jìn)行多次測(cè)試時(shí),測(cè)得的數(shù)值在一定范圍內(nèi)波動(dòng)他膳,其中接近平均值的數(shù)據(jù)占多數(shù)响逢,遠(yuǎn)離平均值的占少數(shù)。具有這種分布規(guī)律的隨機(jī)變量的分布被稱為正態(tài)分布棕孙。正態(tài)曲線呈鐘形舔亭,具有兩頭低、中間高蟀俊、左右對(duì)稱等特點(diǎn)钦铺。
2.2 正態(tài)分布的特征。第一肢预、對(duì)稱性矛洞。第二、非負(fù)性烫映;第三沼本、服從正態(tài)分布的隨機(jī)變量分布由平均值μ和標(biāo)準(zhǔn)差σ完全決定噩峦。
2.3 標(biāo)準(zhǔn)正態(tài)分布
2.3.1 標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)及圖形
當(dāng)μ=0且σ=1時(shí),正態(tài)分布被稱為標(biāo)準(zhǔn)正態(tài)分布抽兆。記為N(0识补,1)
2.3.2 正態(tài)分布轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)頒布。一般而言辫红,所有的正態(tài)分布都可以通過(guò)公式轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布凭涂。
2.3.3 如何查標(biāo)準(zhǔn)正態(tài)分布表。
由于現(xiàn)實(shí)生活中很多數(shù)據(jù)分析的對(duì)象都是服從正態(tài)分布的隨機(jī)變量贴妻,通過(guò)標(biāo)準(zhǔn)化轉(zhuǎn)換导盅,所有的正態(tài)頒布都可以轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布。而標(biāo)準(zhǔn)正態(tài)分布是一個(gè)確定的圖形揍瑟。因此標(biāo)準(zhǔn)正態(tài)分布就成了數(shù)據(jù)統(tǒng)計(jì)的基礎(chǔ)性分布白翻。正是由于其基礎(chǔ)性地位,科室家們?yōu)闃?biāo)準(zhǔn)正態(tài)分布設(shè)立了正態(tài)分布表绢片,供人們?cè)谧鰯?shù)據(jù)分析的過(guò)程中查閱滤馍。
2.3.4 標(biāo)準(zhǔn)正態(tài)分布的“3σ原則”
2σ=68.3%;4σ=95.4%;6σ=99.7%.
2.4 基于正態(tài)分布的三大分布:χ2分布、t分布底循、F分布巢株。χ2分布:用于分類變量的卡方檢驗(yàn);F分布用于方差比例的檢驗(yàn)熙涤,以及用于方差分析阁苞、回歸分析和方差齊性檢驗(yàn)。t分布:在信息不足的情況下祠挫,一般使用t分布那槽。例如在不知道總體方差的情況下,對(duì)總體均值的檢驗(yàn)用t統(tǒng)計(jì)量等舔。
3骚灸、中心極限定理
3.1 中心極限定理的提法:如果一個(gè)隨機(jī)變量決定于大量隨機(jī)因素的總和。其中每個(gè)隨機(jī)因素的單位作用微不足道慌植,而且各因素作用相對(duì)均勻甚牲,那么它就服從或近似地服從正態(tài)分布。
3.2 中心極限定理的意義與應(yīng)用:中心極限定理是概率論中最著名的結(jié)果之一蝶柿。它指出丈钙,大量的獨(dú)立隨機(jī)變量之和具有近似于正態(tài)的頒布。
第4章 抽樣估計(jì)
1交汤、抽樣估計(jì)的基本概念
1.1 總體及總體指標(biāo):總體指標(biāo)有很多雏赦,不同分析目標(biāo)的總體,需要計(jì)算不同的總體指標(biāo)。例如喉誊,當(dāng)數(shù)據(jù)分析師需要觀測(cè)總體的平均數(shù)時(shí)邀摆,可以將每一個(gè)個(gè)體的測(cè)量值之和進(jìn)行平均,求得總體平均數(shù)伍茄,用μ表示......
通常栋盹,如果一個(gè)總體是無(wú)限總體,則其對(duì)應(yīng)的隨機(jī)變量就是連續(xù)型隨機(jī)變量敷矫,如果一個(gè)總體是有限總體例获,則其對(duì)應(yīng)的隨機(jī)變量就是離散型隨機(jī)變量。
1.2 樣本及樣本指標(biāo):數(shù)據(jù)分析師通常取得的數(shù)據(jù)曹仗,也是一次抽樣的結(jié)果榨汤。有幾個(gè)常用的指標(biāo),例如樣本平均數(shù)怎茫、樣本方差收壕、樣本標(biāo)準(zhǔn)差,這些指標(biāo)通常用來(lái)推斷總體的指標(biāo)轨蛤,反映總體的特征蜜宪。
1.3 抽樣估計(jì)的思想:抽樣估計(jì)是利用抽樣調(diào)查所獲得的樣本信息,根據(jù)概率論所揭示的隨機(jī)變量的一般規(guī)律性祥山,對(duì)總體的某些數(shù)量特征進(jìn)行估計(jì)的一種統(tǒng)計(jì)分析方法圃验。
要求:隨機(jī)性、獨(dú)立性缝呕。
抽樣方法:重復(fù)抽樣:每次抽樣是每次抽選都是獨(dú)立的澳窑。即前一次抽選不影響后一次抽選,每個(gè)單位中選或不中選的機(jī)會(huì)在各次抽選中是相同的供常。而不重復(fù)抽樣是每次抽選都不是獨(dú)立的摊聋,即前一次抽選影響下一次抽選,每個(gè)單位中選或不中選的機(jī)會(huì)在各次抽選中是不相同的话侧。
1.4 抽樣估計(jì)的理論基礎(chǔ):抽樣估計(jì)是建立在概率論的大數(shù)定律和中心極限定理基礎(chǔ)上的栗精,大數(shù)定律和中心極限定理等一系列定理為抽樣估計(jì)提供了數(shù)學(xué)依據(jù)。
大數(shù)定律:論證了抽樣平均數(shù)走近了總體平均數(shù)的趨勢(shì)瞻鹏。為抽樣估計(jì)提供了重要的依據(jù)。
中心極限定理:變量和的分布符合正態(tài)分布鹿寨。中心極限定理所回答的問(wèn)題是獨(dú)立或弱相依的隨機(jī)變量之和的極限條件在什么條件下是正態(tài)的新博,它揭示了大部分的社會(huì)經(jīng)濟(jì)現(xiàn)象表現(xiàn)為正態(tài)分布的本質(zhì)原因。
1.5 樣本統(tǒng)計(jì)量及分布:一般在確定數(shù)據(jù)分析的目標(biāo)后脚草,就能找到對(duì)應(yīng)的總體指標(biāo)赫悄,也能找到總體指標(biāo)對(duì)應(yīng)的樣本統(tǒng)計(jì)量。一個(gè)總體指標(biāo)通常和一個(gè)或多個(gè)樣本統(tǒng)計(jì)量對(duì)應(yīng),數(shù)據(jù)分析人員在使用某一種統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)分析時(shí)埂淮,除了要明白該方法在軟件中的操作過(guò)程姑隅,還要理解方法所使用的樣本統(tǒng)計(jì)量,這樣才能從根本上理解該方法的使用場(chǎng)合倔撞,從而實(shí)現(xiàn)對(duì)統(tǒng)計(jì)方法的靈活運(yùn)用讲仰。
2、抽樣估計(jì)的方法-----點(diǎn)估計(jì):就是用在某一次隨機(jī)抽樣過(guò)程中痪蝇,計(jì)算得到的樣本統(tǒng)計(jì)量的值直接作為總體指標(biāo)鄙陡。
2.1 優(yōu)良點(diǎn)估計(jì)的樣本統(tǒng)計(jì)量的衡量標(biāo)準(zhǔn):無(wú)偏性;有效性躏啰;一致性趁矾。點(diǎn)估計(jì)的例子:統(tǒng)計(jì)學(xué)家在二戰(zhàn)時(shí)期使用點(diǎn)估計(jì)預(yù)測(cè)二戰(zhàn)期間德軍坦克數(shù)量,從而讓盟軍很好地進(jìn)行戰(zhàn)略部署给僵。由于許多戰(zhàn)略上的理由毫捣,盟軍非常想知道二戰(zhàn)期間德軍總共制造了多少輛坦克。德國(guó)人在制造坦克時(shí)是墨守成規(guī)的帝际,他們把坦克從1開(kāi)始進(jìn)行連續(xù)編號(hào)培漏。在戰(zhàn)爭(zhēng)進(jìn)行過(guò)程中,盟軍繳獲了一些德軍的坦克胡本,并記錄了它們的編號(hào)牌柄。那么怎樣用這些號(hào)碼來(lái)估計(jì)總數(shù)呢?我們知道侧甫,制造出來(lái)的坦克數(shù)肯定大于記錄中的最大編號(hào)珊佣。因此,點(diǎn)估計(jì)的方法之一就是計(jì)算出被繳獲坦克編號(hào)的平均值披粟。并認(rèn)為這個(gè)值是德軍全部坦克編號(hào)的中點(diǎn)咒锻,用樣本均值乘以2就是總數(shù)的一個(gè)估計(jì)值。從戰(zhàn)后發(fā)現(xiàn)的德軍記錄來(lái)看守屉,盟軍的估計(jì)值非常接近德軍所生產(chǎn)坦克的真實(shí)記錄惑艇。
3、抽樣估計(jì)的誤差:必須要指出的是拇泛,抽樣誤差是抽樣所特有的誤差滨巴。凡進(jìn)行抽樣就一定會(huì)產(chǎn)生抽樣誤差。這種誤差雖然是不可避免的俺叭,但可以控制恭取,所以,又被稱為可控制誤差熄守。
4蜈垮、抽樣估計(jì)的方法----區(qū)間估計(jì)
前面所述的點(diǎn)估計(jì)耗跛,是用樣本指標(biāo)直接作為總體指標(biāo)的估計(jì)值,一般不考慮抽樣誤差攒发。而區(qū)間估計(jì)則與之不同调塌,它是根據(jù)樣本指標(biāo)的分布律,按照一定要求惠猿,先確定出兩個(gè)數(shù)據(jù)θ1羔砾,θ2,使總體指標(biāo)θ包括在區(qū)間[θ1紊扬,θ2]內(nèi)的概率=1-α蜒茄,則為區(qū)間估計(jì)。
第一餐屎、區(qū)間θ1≤θ≤θ2被稱為置信區(qū)間檀葛。第二、1-α稱為置信系統(tǒng)腹缩。第三屿聋、α被稱為顯著性水平。置信區(qū)間表達(dá)了區(qū)間估計(jì)的準(zhǔn)確性藏鹊,置信系統(tǒng)表達(dá)了區(qū)間的可靠性润讥,它是區(qū)間估計(jì)的可靠概率。
4.1 區(qū)間估計(jì)的步驟:根據(jù)給定的置信度要求盘寡,推算出抽取極限誤差的可能范圍楚殿。
首先:抽取樣本,計(jì)算抽樣指標(biāo)作為總體參數(shù)的估計(jì)值竿痰,計(jì)算出樣本標(biāo)準(zhǔn)差用以推算抽樣平均誤差脆粥。
其次:根據(jù)給定置信度的要求,查《正態(tài)分布概率表》求得概率度t值影涉。
最后变隔,根據(jù)概率率t和抽樣平均誤差推算抽樣極限誤差的可能范圍,再根據(jù)極限誤差求出被估計(jì)總體指標(biāo)的上限蟹倾、下限匣缘,對(duì)總體參數(shù)做區(qū)間估計(jì)。
5鲜棠、抽樣的組織形式和抽樣數(shù)目的確定
5.1 抽樣的組織形式:簡(jiǎn)單隨機(jī)抽樣肌厨;分層抽樣;等距抽樣岔留;整群抽樣夏哭;多階段抽樣
5.2 抽樣數(shù)據(jù)的確定:第一、估計(jì)總體均值時(shí)献联,必要的抽樣數(shù)目竖配;第二、估計(jì)總體比例時(shí)里逆,必要的抽樣數(shù)目进胯。兩種類型都做了相應(yīng)規(guī)定。
第5章 假設(shè)檢驗(yàn)
1原押、假設(shè)檢驗(yàn)是數(shù)據(jù)分析中經(jīng)常用到的一種統(tǒng)計(jì)分析方法胁镐。它是抽樣推斷的主要內(nèi)容之一。在實(shí)際的數(shù)據(jù)分析過(guò)程中诸衔,能否根據(jù)經(jīng)驗(yàn)假定總體指標(biāo)的值盯漂,然后根據(jù)樣本數(shù)據(jù),使用某種尺度去檢驗(yàn)這種假定是否正確笨农,從而實(shí)現(xiàn)對(duì)總體指標(biāo)的分析就缆。這種從對(duì)總體的假設(shè)出發(fā)用樣本數(shù)據(jù)去檢驗(yàn),實(shí)現(xiàn)對(duì)總體指標(biāo)分析的過(guò)程谒亦,就是假設(shè)檢驗(yàn)竭宰。
1.1 基本思想:對(duì)總體指標(biāo)進(jìn)行某種假設(shè),以小概率事件不發(fā)生基準(zhǔn)份招,運(yùn)用反證法的思想切揭,按照總體的假設(shè),并根據(jù)所獲樣本的數(shù)據(jù)锁摔,通過(guò)樣本統(tǒng)計(jì)量的分布廓旬,得出小概率事件在某一次抽樣中發(fā)生的錯(cuò)誤現(xiàn)象,從而對(duì)總體指標(biāo)的假設(shè)做出拒絕的判斷谐腰。
2孕豹、假設(shè)檢驗(yàn)的分析方法
2.1 假設(shè)檢驗(yàn)的基本步驟:建立假設(shè);選擇檢驗(yàn)統(tǒng)計(jì)量怔蚌;尋找檢驗(yàn)的拒絕域巩步;計(jì)算樣本統(tǒng)計(jì)量的值,根據(jù)拒絕域作出判斷桦踊。
2.2 假設(shè)檢驗(yàn)與區(qū)間估計(jì)的聯(lián)系:假設(shè)檢驗(yàn)是從對(duì)總體進(jìn)行假設(shè)椅野,使用樣本數(shù)據(jù)進(jìn)行檢驗(yàn),而敬意估計(jì)是從樣本數(shù)據(jù)出發(fā)籍胯,估計(jì)總體的參數(shù)竟闪,但兩者從本質(zhì)上是一致的。
2.3 利用P值進(jìn)行決策:P值是進(jìn)行假設(shè)檢驗(yàn)決策的另一個(gè)依據(jù)杖狼,是最常用的一個(gè)統(tǒng)計(jì)學(xué)指標(biāo)炼蛤,統(tǒng)計(jì)和計(jì)量軟件輸出結(jié)果都有P值,如SPSS軟件蝶涩,隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展理朋,特別是統(tǒng)計(jì)分析軟件的普及絮识,通過(guò)比較檢驗(yàn)統(tǒng)計(jì)量與臨界值的大小的檢驗(yàn)方法逐漸被P值檢驗(yàn)所取代,因此數(shù)據(jù)分析人員一定了解P值的含義和掌握如何P值進(jìn)行檢驗(yàn)嗽上。
3次舌、常見(jiàn)的檢驗(yàn)統(tǒng)計(jì)量:一般來(lái)講,統(tǒng)計(jì)分析方法都需要使用某種統(tǒng)計(jì)量兽愤,因此在學(xué)習(xí)統(tǒng)計(jì)分析方法時(shí)彼念,應(yīng)重點(diǎn)掌握該方法使用的統(tǒng)計(jì)量及其分布,這樣才能把握該方法的本質(zhì)思想浅萧,才能做出好的數(shù)據(jù)分析報(bào)告逐沙。統(tǒng)計(jì)學(xué)中最難的內(nèi)容就是構(gòu)造統(tǒng)計(jì)量,對(duì)于一般的數(shù)據(jù)分析人員來(lái)說(shuō)洼畅,掌握一些常見(jiàn)的統(tǒng)計(jì)量及其使用時(shí)機(jī)就可以了吩案。如:檢驗(yàn)統(tǒng)計(jì)量;t檢驗(yàn)統(tǒng)計(jì)量土思;χ2檢驗(yàn)統(tǒng)計(jì)量务热;F檢驗(yàn)統(tǒng)計(jì)量
第6章 方差分析
1、方差分析:是比較多個(gè)總體的均值是否相等的檢驗(yàn)方法己儒。方差分析就是通過(guò)檢驗(yàn)各總體的均值是否相等來(lái)判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著影響的崎岂。
2、如果一個(gè)試驗(yàn)中所考察的因子只有一個(gè)闪湾,那么就是單因子試驗(yàn)問(wèn)題冲甘。基本假定:1)在水平Ai下途样,指標(biāo)服從正態(tài)分布江醇,即在同一水平下,觀測(cè)指標(biāo)的數(shù)據(jù)均來(lái)自正態(tài)總體何暇。2)在不同水平下陶夜,方差相等,即在不同水平下裆站,觀測(cè)指標(biāo)的數(shù)據(jù)波動(dòng)程度相同条辟。3)數(shù)據(jù)Yij相互獨(dú)立。
3宏胯、單因素方差分析的基本步驟:
1)提出假設(shè):H0無(wú)差異羽嫡;H1有顯著差異。
2)選擇檢驗(yàn)統(tǒng)計(jì)量:采用的檢驗(yàn)統(tǒng)計(jì)量是F統(tǒng)計(jì)量肩袍,即F值檢驗(yàn)杭棵。
3)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和概率P值,該步驟的目的就是根據(jù)樣本數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值氛赐,依據(jù)樣本統(tǒng)計(jì)量的分布魂爪,由樣本統(tǒng)計(jì)量的觀測(cè)值計(jì)算相應(yīng)的概率P值先舷。
4)給定顯著性水平,并得出方差分析結(jié)果甫窟。根據(jù)數(shù)據(jù)分析的要求密浑,人為給定顯著性水平蛙婴,例如測(cè)定顯著性水平α=0.05粗井,如果P值小于0.05,則拒絕原假設(shè)街图。即各分類總體的均值不同時(shí)相等浇衬。
5)對(duì)方差分析的結(jié)果進(jìn)行對(duì)比分析。一般來(lái)說(shuō)餐济,方差分析的顯示性檢驗(yàn)都會(huì)拒絕原假設(shè)耘擂,也就是說(shuō),在不同的因素水平下絮姆,觀察值的均值不會(huì)同時(shí)相等醉冤。那么是不是有某幾個(gè)水平的均值是相等或者不相等的呢?這就需要進(jìn)行對(duì)比分析篙悯。對(duì)比分析的過(guò)程蚁阳,就是在原假設(shè)不成立的情況下,進(jìn)一步分析哪幾個(gè)因素水平的均值是不相等的鸽照,其實(shí)也就是進(jìn)行各水平之間的兩兩對(duì)比檢驗(yàn)螺捐,其對(duì)應(yīng)原假設(shè)是某兩個(gè)水平對(duì)應(yīng)的均值相等,需要使用檢驗(yàn)統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn)矮燎。
第7章 相關(guān)與回歸分析
1定血、變量間的關(guān)系。一般可分為兩類:確定性關(guān)系(函數(shù)關(guān)系)和非確定關(guān)系(相關(guān)關(guān)系)诞外。相關(guān)關(guān)系的特點(diǎn):第一澜沟、一個(gè)變量的取值不能由另一個(gè)變量唯一確定,兩者是一種相互說(shuō)明的關(guān)系峡谊。第二茫虽、對(duì)大量的數(shù)據(jù)進(jìn)行觀察研究,就會(huì)發(fā)現(xiàn)許多變量之間存在著一定的客觀規(guī)律靖苇。第三席噩、當(dāng)把自變量和因變量投放到坐標(biāo)軸上時(shí),各觀測(cè)點(diǎn)分布在直線或曲線的周圍贤壁。
2悼枢、相關(guān)性分析步驟:一是繪制兩個(gè)變量的散點(diǎn)圖;二是計(jì)算變量之間的相關(guān)系數(shù)脾拆;三是相關(guān)系統(tǒng)的顯著性檢驗(yàn)馒索。
3莹妒、相關(guān)系數(shù)及其種類。分為皮爾遜相關(guān)系統(tǒng)绰上,斯皮爾曼相關(guān)系統(tǒng)和肯德?tīng)栂嚓P(guān)系統(tǒng)旨怠。如:武將的統(tǒng)御力和武力的相關(guān)系統(tǒng)r=0.586907,根據(jù)相關(guān)系統(tǒng)的經(jīng)驗(yàn)解釋蜈块,可以認(rèn)為武將的武力和其統(tǒng)御力存在中度相關(guān)鉴腻。
4、相關(guān)系統(tǒng)的顯著性檢驗(yàn):r是根據(jù)樣本數(shù)據(jù)計(jì)算的百揭,應(yīng)稱為樣本相關(guān)系統(tǒng)爽哎,也可稱為皮爾遜相關(guān)系統(tǒng)。在進(jìn)行數(shù)據(jù)分析時(shí)器一,每次得到的數(shù)據(jù)其實(shí)都是從總體中抽樣得到的课锌,因此總有一個(gè)唯一確定的總體相關(guān)系統(tǒng)和樣本相關(guān)系統(tǒng)相對(duì)應(yīng)。
一般來(lái)說(shuō)祈秕,總體相關(guān)系統(tǒng)是無(wú)法得到的渺贤,只能通過(guò)樣本統(tǒng)計(jì)量r進(jìn)行估計(jì),既然相關(guān)相關(guān)系統(tǒng)r是抽樣估計(jì)的量请毛,這就必然需要進(jìn)行顯著性檢驗(yàn)志鞍。這一檢驗(yàn)過(guò)程稱為相關(guān)系統(tǒng)的顯著性檢驗(yàn)員。
5获印、一元線性回歸分析:當(dāng)兩個(gè)變量之間存在線性相關(guān)關(guān)系統(tǒng)時(shí)述雾,我們常常希望在兩者之間建立定量關(guān)系,兩個(gè)相關(guān)變量之間的定量關(guān)系的表達(dá)即是一元線性回歸方程兼丰。當(dāng)估計(jì)這條直接后玻孟,就可以利用這個(gè)直線方程根據(jù)給定的自變量來(lái)預(yù)測(cè)因變量,這就是一元線性回歸分析要解決的問(wèn)題鳍征。