前段時間學習了人大薛薇老師的統(tǒng)計學基礎課程倘是,最近剛交了統(tǒng)計學作業(yè)肄方,得到了TDU同學和薛老師的高度評價疤剑,并與薛老師交流了關于“原假設”的問題随闪。在這里和大家分享一下這段學習歷程阳似,與大家共勉,也歡迎大家提一些建議哈铐伴。
薛老師這次課程主要是基于案例探討統(tǒng)計分析方法的基本原理撮奏,她帶來的第一個案例是北京市空氣監(jiān)測。
開頭便告訴我們從統(tǒng)計視角看案例數(shù)據(jù)当宴,確定研究的樣本畜吊、步驟、問題户矢,只研究供暖季的數(shù)據(jù)玲献,數(shù)據(jù)處理的兩種方式:
第一,計算該時段各站點各變量均值梯浪,樣本量35
第二青自,忽略時間上的差異,視數(shù)據(jù)為截面數(shù)據(jù)驱证。優(yōu)勢:有效擴大了樣本量(采納)
研究步驟和問題:
第一步延窜,樣本數(shù)據(jù)的描述統(tǒng)計。涉及問題:
了解數(shù)據(jù)缺失狀況
基本描述統(tǒng)計
診斷極端值:從統(tǒng)計視角檢測PM2.5爆表情況
第二步抹锄,依據(jù)樣本逆瑞,對樣本來自的總體參數(shù)進行估計和對比。涉及問題:
估計北京市供暖季PM2.5(一個總體)的平均值
交通污染對PM2.5的影響:對比西直門北(區(qū)域)和定陵(區(qū)域)供暖季的PM2.5(兩總體)的平均值
第三步伙单,基于樣本數(shù)據(jù)的深入研究
探討PM2.5成因获高;對比北京四個不同區(qū)域(西北、西南吻育、正南念秧、東/東南)PM2.5總體均值差異
探討PM2.5的空間特征和空氣質量的區(qū)域劃分
探討AQI的全面性問題
接下來針對研究步驟和問題展開講解,從最基礎的直方圖布疼、概率密度函數(shù)摊趾、四分位數(shù)等內容到十分經(jīng)典的假設檢驗、Bootstrap游两、多元線性回歸砾层、聚類分析、主成分分析都有講解贱案。
然后為我們帶來了第二個案例肛炮,基于HR的調查研究IT員工離職問題,研究離職主要因素并預測是否離職。因為這里研究的二分類變量與其他變量之間的關系侨糟,對二分類的被解釋變量不可以直接采用一般多元線性回歸分析方法碍扔,因此進行改進如下:
建立二項Logit模型,并講解二分類模型的評價問題秕重,查準率和查全率(覆蓋率)和ROC曲線蕴忆。
正所謂“實踐是檢驗真理的唯一標準”,在上完課后就進入作業(yè)環(huán)節(jié)悲幅。
說實話套鹅,薛老師布置的作業(yè)并不難,只要好好復習課件汰具,一般都能答出來卓鹿,但復習課件不僅僅是為了完成作業(yè),同時也是一個理解吸收提高的過程留荔。(ps:自己的作業(yè)也十分榮幸的得到了TDU同學和薛老師滿分+的評價吟孙,哈哈。)
以第一題為例聚蝶,原題如下:
一杰妓、(15分)某大型企業(yè)HR通過隨機調查獲得了2720名技術員工對企業(yè)滿意度的打分(取值范圍:0~1)數(shù)據(jù)。對該樣本的基本描述統(tǒng)計結果如下碘勉。
請問:
1巷挥、 請基于上述計算結果,粗略繪制滿意度打分的概率密度分布曲線验靡,并在圖中畫出有相同均值和標準差的正態(tài)分布曲線倍宾。(5分)
考察基礎知識,概率密度分布曲線和正態(tài)分布曲線胜嗓,這兩個知識點雖然薛老師沒有直接講解高职,但都比較基礎,要求我們有一定的R自學能力辞州,查一下就能知道結果怔锌。通過plot繪制出density概率密度分布曲線,通過mean和sd求出均值和方差变过,然后通過curve繪制出dnorm正態(tài)分布曲線埃元。
核心代碼如下:
plot(density(Data$satisfaction_level))
mean_data = mean(Data$satisfaction_level)
sd_data = sd(Data$satisfaction_level)
curve(dnorm(x,mean_data,sd_data))
個人解答如下:
(1)滿意度打分的概率密度分布曲線如圖所示,可以看出牵啦,并不符合正態(tài)分布亚情。
(2)求得均值為0.6078971妄痪,標準差為0.2541932哈雏,相應的正態(tài)分布曲線如圖,
2、?基于上述計算結果裳瘪,你認為滿意度打分中是否存在異常數(shù)據(jù)土浸?為什么?(5分)
正所謂外行看熱鬧彭羹,內行看門道黄伊,異常數(shù)據(jù)不是你覺得有異常就異常,需要理論依據(jù)派殷,理論依據(jù)是啥还最?答:閾值,大于1.5倍的四分位差毡惜,詳見PPT第17頁拓轻。
個人解答如下:
答:滿意度打分不存在異常數(shù)據(jù)。為非對稱分布经伙。
(1)先計算1.5倍的四分位差:
1.5*(quantile(Data$satisfaction_level,c(0.25,0.75))[2]-
quantile(Data$satisfaction_level,c(0.25,0.75))[1])
得到標準0.585扶叉。
(2)在計算上四分位數(shù)和下四分位數(shù):
quantile(Data$satisfaction_level,c(0.25,0.75))
得到0.43(25%)和0.82(75%)
(3)計算出最值:
describe(Data$satisfaction_level)
得到0.09(min)和1(max)
因(0.43-0.585)不存在和(0.82+0.585)不存在,故無異常點帕膜。
3枣氧、基于上述計算結果,如果希望刻畫滿意度打分的樣本分布特征垮刹,應給出哪些最基本的描述統(tǒng)計結果达吞?它們的含義是什么?(5分)
這道題考的十分基礎荒典,最基本的描述統(tǒng)計結果宗挥,可以參考Basic descriptive statistics useful for psychometrics里的描述統(tǒng)計量,但背后是統(tǒng)計方法中的描述統(tǒng)計种蝶,是統(tǒng)計學的基石契耿,也是個人統(tǒng)計學的基本功,雖然簡單螃征,但必須重視搪桂。
個人解答如下:
答:可以有以下描述統(tǒng)計結果,
n:2720盯滚,一共有2720名技術員工的滿意度數(shù)據(jù)踢械;
mean:0.61,滿意度的平均值為0.61分魄藕;
sd:0.25内列,滿意度的標準差為0.25,反映滿意度的離散程度背率;
min:0.09话瞧,滿意度的最值嫩与,最低分0.09;
max:1交排,滿意度的最值划滋,最高分1;
skew:-0.48埃篓,左偏处坪,偏離度-0.48;
se:0架专,均值的標準誤差StandardError
備注:標準誤=標準差/√n? ?? ?n是樣本量同窘。公式意思是:標準誤等于標準差除以樣本量的平方根,
其他題目類似部脚,十分經(jīng)典塞椎,不在一一展開。
之后睛低,我還與薛老師進一步交流了關于“原假設”的問題案狠。
我們先看問題以及我的解答:
二、(25分)員工甲認為:企業(yè)技術員工的工作壓力大钱雷,他們對企業(yè)滿意度打分的總體平均值不會高于0.5分骂铁。基于第一題的隨機樣本數(shù)據(jù)罩抗,員工乙利用假設檢驗方法對員工甲的觀點進行了驗證拉庵,分析結果如下。
請問:
員工乙采用的是哪種統(tǒng)計檢驗方法套蒂?請給出假設檢驗的原假設钞支。(5分)
答:采用的是單個總體均值的假設檢驗;由alternative hypothesis:
true mean is not equal to 0.5知原假設為真實的均值等于0.5操刀。
但薛老師認為原假設是H0:μ0≤0.5
我:如果按題意他們對企業(yè)滿意度打分的總體平均值不會高于0.5分和最終結果平均值高于0.5分烁挟,那么原假設H0:μ0≤0.5。但如果看R執(zhí)行的結果alternative?hypothesis:?true?mean?is?not?equal?to?0.5骨坑,那么原假設為真實的均值等于0.5撼嗓,即μ0?=?0.5。在這里是不是應該以R執(zhí)行的結果為準欢唾。薛老師:程序給出的都是雙側檢驗的概率P值且警,單側檢驗用它的1/2即可最后我提出加上alternative?=?"greater"這個參數(shù),這樣alternative被則假設礁遣、原假設斑芜、R結果、題意都統(tǒng)一祟霍,就沒有歧義了杏头。
t.test(Data$satisfaction_level,mu=0.5,side="less",alternative?=?"greater")
得到了薛老師的肯定盈包,最終達成一致。
一場精彩的統(tǒng)計學課程結束了大州,但我們人生的學習之旅還有很長的路要走续语。
在此垂谢,感謝薛老師的精彩講解厦画,感謝TDU引入這樣一門好課,感謝努力的自己滥朱。
時間在流逝根暑,萬物在成長,引用國學大師錢穆老師的一句話作為結語徙邻,過去未去排嫌,未來已來。