數(shù)據(jù)清洗
查重去重
缺失值定位與處理
檢測數(shù)據(jù)邏輯
3.1 查詢重復(fù)數(shù)據(jù)
A 函數(shù)法: COUNTIF(range,criteria)
重復(fù)標記:
在C列中CX—共重復(fù)出現(xiàn)了幾次
第二次重復(fù)標記:
在C1到CX中CX出現(xiàn)了幾次
B 高級篩選法(去重優(yōu)選2) ☆☆☆☆
【數(shù)據(jù)】——【篩選-高級】
選中區(qū)域必須包含變量名蕉世,復(fù)制到的區(qū)域選擇起始位置即可茫多,會生成新變量
C 條件格式法(查重優(yōu)選) ☆☆☆☆
【條件格式】——【突出顯示單元格規(guī)則】——【重復(fù)值】
D 數(shù)據(jù)透視表法
會默認第一個值為變量名,不參與統(tǒng)計:選中區(qū)域須包含變量名
分別拉動目標變量到【行標簽】、Σ數(shù)值
計數(shù)就是頻次,頻次超過1的就是重復(fù)項
3.2 刪除重復(fù)數(shù)據(jù)
A 菜單欄刪除
【數(shù)據(jù)】——【刪除重復(fù)項】
如果有多個變量要擴展,確認選中區(qū)域是否包含變量名
不會生成新變量
3.3 缺失值處理
A 常見方式
a. 用樣本統(tǒng)計量的值代替缺失值民宿,如Mean
b. 用統(tǒng)計模型計算出來一個值代替缺失值,如回歸模型
c. 刪除含缺失值的Case
d. 不作處理像鸡,在分析時排除含缺失值的個案
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?——適用于【樣本量大】+【缺失值少】+【變量之間無高度相關(guān)】
B 定位輸入
定位:Ctrl+G
【編輯】——【查找和選擇】——<定位條件>——<空值>——選中所有空值
輸入:Ctrl+Enter
選中之后輸入“XX”,然后按Ctrl+Enter哈恰,所有選中單元格都輸入了XX
C 查找替換
查找:Ctrl+F
替換:Ctrl+H
定位:Ctrl+G
3.4 檢查數(shù)據(jù)邏輯錯誤
A 利用IF函數(shù)檢查錯誤——“最多選擇3項”
如果B2:G2中不為0的值超過3個只估,則返回false,反之返回true
?B 利用條件格式標記錯誤——“只能出現(xiàn)0/1兩個值”
選中目標區(qū)域——【條件格式】——【突出顯示單元格】——【其他規(guī)則】