邂逅統(tǒng)計學-當TD遇到人大

前段時間學習了人大薛薇老師的統(tǒng)計學基礎課程倘是,最近剛交了統(tǒng)計學作業(yè)肄方,得到了TDU同學和薛老師的高度評價疤剑,并與薛老師交流了關于“原假設”的問題随闪。在這里和大家分享一下這段學習歷程阳似,與大家共勉,也歡迎大家提一些建議哈铐伴。


薛老師這次課程主要是基于案例探討統(tǒng)計分析方法的基本原理撮奏,她帶來的第一個案例是北京市空氣監(jiān)測。


開頭便告訴我們從統(tǒng)計視角看案例數(shù)據(jù)当宴,確定研究的樣本畜吊、步驟、問題户矢,只研究供暖季的數(shù)據(jù)玲献,數(shù)據(jù)處理的兩種方式:

第一,計算該時段各站點各變量均值梯浪,樣本量35

第二青自,忽略時間上的差異,視數(shù)據(jù)為截面數(shù)據(jù)驱证。優(yōu)勢:有效擴大了樣本量(采納)

研究步驟和問題:

第一步延窜,樣本數(shù)據(jù)的描述統(tǒng)計。涉及問題:

了解數(shù)據(jù)缺失狀況

基本描述統(tǒng)計

診斷極端值:從統(tǒng)計視角檢測PM2.5爆表情況

第二步抹锄,依據(jù)樣本逆瑞,對樣本來自的總體參數(shù)進行估計和對比。涉及問題:

估計北京市供暖季PM2.5(一個總體)的平均值

交通污染對PM2.5的影響:對比西直門北(區(qū)域)和定陵(區(qū)域)供暖季的PM2.5(兩總體)的平均值

第三步伙单,基于樣本數(shù)據(jù)的深入研究

探討PM2.5成因获高;對比北京四個不同區(qū)域(西北、西南吻育、正南念秧、東/東南)PM2.5總體均值差異

探討PM2.5的空間特征和空氣質量的區(qū)域劃分

探討AQI的全面性問題

接下來針對研究步驟和問題展開講解,從最基礎的直方圖布疼、概率密度函數(shù)摊趾、四分位數(shù)等內容到十分經(jīng)典的假設檢驗、Bootstrap游两、多元線性回歸砾层、聚類分析、主成分分析都有講解贱案。

然后為我們帶來了第二個案例肛炮,基于HR的調查研究IT員工離職問題,研究離職主要因素并預測是否離職。因為這里研究的二分類變量與其他變量之間的關系侨糟,對二分類的被解釋變量不可以直接采用一般多元線性回歸分析方法碍扔,因此進行改進如下:


建立二項Logit模型,并講解二分類模型的評價問題秕重,查準率和查全率(覆蓋率)和ROC曲線蕴忆。



正所謂“實踐是檢驗真理的唯一標準”,在上完課后就進入作業(yè)環(huán)節(jié)悲幅。

說實話套鹅,薛老師布置的作業(yè)并不難,只要好好復習課件汰具,一般都能答出來卓鹿,但復習課件不僅僅是為了完成作業(yè),同時也是一個理解吸收提高的過程留荔。(ps:自己的作業(yè)也十分榮幸的得到了TDU同學和薛老師滿分+的評價吟孙,哈哈。)

以第一題為例聚蝶,原題如下:

一杰妓、(15分)某大型企業(yè)HR通過隨機調查獲得了2720名技術員工對企業(yè)滿意度的打分(取值范圍:0~1)數(shù)據(jù)。對該樣本的基本描述統(tǒng)計結果如下碘勉。


請問:

1巷挥、 請基于上述計算結果,粗略繪制滿意度打分的概率密度分布曲線验靡,并在圖中畫出有相同均值和標準差的正態(tài)分布曲線倍宾。(5分)

考察基礎知識,概率密度分布曲線和正態(tài)分布曲線胜嗓,這兩個知識點雖然薛老師沒有直接講解高职,但都比較基礎,要求我們有一定的R自學能力辞州,查一下就能知道結果怔锌。通過plot繪制出density概率密度分布曲線,通過mean和sd求出均值和方差变过,然后通過curve繪制出dnorm正態(tài)分布曲線埃元。

核心代碼如下:

plot(density(Data$satisfaction_level))

mean_data = mean(Data$satisfaction_level)

sd_data = sd(Data$satisfaction_level)

curve(dnorm(x,mean_data,sd_data))

個人解答如下:

(1)滿意度打分的概率密度分布曲線如圖所示,可以看出牵啦,并不符合正態(tài)分布亚情。


(2)求得均值為0.6078971妄痪,標準差為0.2541932哈雏,相應的正態(tài)分布曲線如圖,


2、?基于上述計算結果裳瘪,你認為滿意度打分中是否存在異常數(shù)據(jù)土浸?為什么?(5分)

正所謂外行看熱鬧彭羹,內行看門道黄伊,異常數(shù)據(jù)不是你覺得有異常就異常,需要理論依據(jù)派殷,理論依據(jù)是啥还最?答:閾值,大于1.5倍的四分位差毡惜,詳見PPT第17頁拓轻。


個人解答如下:

答:滿意度打分不存在異常數(shù)據(jù)。為非對稱分布经伙。

(1)先計算1.5倍的四分位差:

1.5*(quantile(Data$satisfaction_level,c(0.25,0.75))[2]-

quantile(Data$satisfaction_level,c(0.25,0.75))[1])

得到標準0.585扶叉。

(2)在計算上四分位數(shù)和下四分位數(shù):

quantile(Data$satisfaction_level,c(0.25,0.75))

得到0.43(25%)和0.82(75%)

(3)計算出最值:

describe(Data$satisfaction_level)

得到0.09(min)和1(max)

因(0.43-0.585)不存在和(0.82+0.585)不存在,故無異常點帕膜。


3枣氧、基于上述計算結果,如果希望刻畫滿意度打分的樣本分布特征垮刹,應給出哪些最基本的描述統(tǒng)計結果达吞?它們的含義是什么?(5分)

這道題考的十分基礎荒典,最基本的描述統(tǒng)計結果宗挥,可以參考Basic descriptive statistics useful for psychometrics里的描述統(tǒng)計量,但背后是統(tǒng)計方法中的描述統(tǒng)計种蝶,是統(tǒng)計學的基石契耿,也是個人統(tǒng)計學的基本功,雖然簡單螃征,但必須重視搪桂。


個人解答如下:

答:可以有以下描述統(tǒng)計結果,

n:2720盯滚,一共有2720名技術員工的滿意度數(shù)據(jù)踢械;

mean:0.61,滿意度的平均值為0.61分魄藕;

sd:0.25内列,滿意度的標準差為0.25,反映滿意度的離散程度背率;

min:0.09话瞧,滿意度的最值嫩与,最低分0.09;

max:1交排,滿意度的最值划滋,最高分1;

skew:-0.48埃篓,左偏处坪,偏離度-0.48;

se:0架专,均值的標準誤差StandardError

備注:標準誤=標準差/√n? ?? ?n是樣本量同窘。公式意思是:標準誤等于標準差除以樣本量的平方根,

其他題目類似部脚,十分經(jīng)典塞椎,不在一一展開。


之后睛低,我還與薛老師進一步交流了關于“原假設”的問題案狠。

我們先看問題以及我的解答:

二、(25分)員工甲認為:企業(yè)技術員工的工作壓力大钱雷,他們對企業(yè)滿意度打分的總體平均值不會高于0.5分骂铁。基于第一題的隨機樣本數(shù)據(jù)罩抗,員工乙利用假設檢驗方法對員工甲的觀點進行了驗證拉庵,分析結果如下。


請問:

員工乙采用的是哪種統(tǒng)計檢驗方法套蒂?請給出假設檢驗的原假設钞支。(5分)

答:采用的是單個總體均值的假設檢驗;由alternative hypothesis:

true mean is not equal to 0.5知原假設為真實的均值等于0.5操刀。

但薛老師認為原假設是H0:μ0≤0.5

我:如果按題意他們對企業(yè)滿意度打分的總體平均值不會高于0.5分和最終結果平均值高于0.5分烁挟,那么原假設H0:μ0≤0.5。但如果看R執(zhí)行的結果alternative?hypothesis:?true?mean?is?not?equal?to?0.5骨坑,那么原假設為真實的均值等于0.5撼嗓,即μ0?=?0.5。在這里是不是應該以R執(zhí)行的結果為準欢唾。薛老師:程序給出的都是雙側檢驗的概率P值且警,單側檢驗用它的1/2即可最后我提出加上alternative?=?"greater"這個參數(shù),這樣alternative被則假設礁遣、原假設斑芜、R結果、題意都統(tǒng)一祟霍,就沒有歧義了杏头。

t.test(Data$satisfaction_level,mu=0.5,side="less",alternative?=?"greater")


得到了薛老師的肯定盈包,最終達成一致。


一場精彩的統(tǒng)計學課程結束了大州,但我們人生的學習之旅還有很長的路要走续语。

在此垂谢,感謝薛老師的精彩講解厦画,感謝TDU引入這樣一門好課,感謝努力的自己滥朱。

時間在流逝根暑,萬物在成長,引用國學大師錢穆老師的一句話作為結語徙邻,過去未去排嫌,未來已來。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末缰犁,一起剝皮案震驚了整個濱河市淳地,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌帅容,老刑警劉巖颇象,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異并徘,居然都是意外死亡遣钳,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進店門麦乞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蕴茴,“玉大人,你說我怎么就攤上這事姐直【氲恚” “怎么了?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵声畏,是天一觀的道長晃听。 經(jīng)常有香客問我,道長砰识,這世上最難降的妖魔是什么能扒? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮辫狼,結果婚禮上初斑,老公的妹妹穿的比我還像新娘。我一直安慰自己膨处,他們只是感情好见秤,可當我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布砂竖。 她就那樣靜靜地躺著,像睡著了一般鹃答。 火紅的嫁衣襯著肌膚如雪乎澄。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天测摔,我揣著相機與錄音置济,去河邊找鬼。 笑死锋八,一個胖子當著我的面吹牛浙于,可吹牛的內容都是我干的。 我是一名探鬼主播挟纱,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼羞酗,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了紊服?” 一聲冷哼從身側響起檀轨,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎欺嗤,沒想到半個月后参萄,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡剂府,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年拧揽,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腺占。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡淤袜,死狀恐怖,靈堂內的尸體忽然破棺而出衰伯,到底是詐尸還是另有隱情铡羡,我是刑警寧澤,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布意鲸,位于F島的核電站烦周,受9級特大地震影響,放射性物質發(fā)生泄漏怎顾。R本人自食惡果不足惜读慎,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望槐雾。 院中可真熱鬧夭委,春花似錦、人聲如沸募强。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至慌烧,卻和暖如春逐抑,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背屹蚊。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工厕氨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人淑翼。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓腐巢,卻偏偏與公主長得像品追,于是被迫代替她去往敵國和親玄括。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內容