缺失值(missing data)是指單元格中應有而未能記錄的數(shù)據(jù)划址。
分為完全隨機缺失(missing completely at random)畸裳、隨機缺失(missing at random)和非隨機缺失(missing at non-random)空执。 ? ? P601 《醫(yī)學統(tǒng)計學》第四版
當缺失現(xiàn)象隨機發(fā)生只嚣,與其他變量或自身取值無關的時候叹侄,這類缺失為完全隨機缺失;當缺失現(xiàn)象隨機發(fā)生扒秸,但與其他無缺失變量的取值相關且與自身取值無關的時候播演,此類為隨機缺失;當缺失現(xiàn)象的發(fā)生與自身取值和其他變量的取值相關的時候伴奥,為非隨機缺失写烤。
P601 《醫(yī)學統(tǒng)計學》第四版
隨機缺失,例如老年人骨質(zhì)疏松的研究渔伯,會因為年紀大了不便行動,而造成缺失肄程;非隨機缺失锣吼,如對收入的研究,收入越高蓝厌,越不愿意填寫收入玄叠。
缺失值的處理
1.刪除缺失值存在的個體或變量
2.估計缺失值
3.建立啞變量
4.需要注意的問題
①首先考慮缺失值的類型,是否為隨機缺失拓提。若為大樣本隨機缺失读恃,推薦使用期望最大法,結合多重填補法更佳代态。
②若在分析中對缺失值進行了估計寺惫,建議分別用缺失值代替后的數(shù)據(jù)集與刪除缺失值后僅完整數(shù)據(jù)組成的數(shù)據(jù)集進行重復分析。尤其當樣本量較小蹦疑,數(shù)據(jù)缺失比例較大西雀,或數(shù)據(jù)缺失類型為非隨機缺失時,這個步驟尤其重要歉摧。