第四章 數(shù)據(jù)處理
前面說了炭剪,在進行數(shù)據(jù)分析前要對我們的數(shù)據(jù)進行處理胎撤,處理是分析前很重要的工作
1. 數(shù)據(jù)分析人應(yīng)該有的心態(tài):“三心二意”
信心:在沒有看到任何積極反饋信息時,依然充滿信心闻鉴,堅持前行
細心:在歷史上無數(shù)事例告訴我們一個小數(shù)點可能引起一場大災(zāi)難敏晤,1%的錯誤=100%的錯誤,所以一定要細心威根,對于某些差異性較大的數(shù)據(jù)要有敏感心
平常心:爭取做到“眾人皆醉我獨醒凤巨,眾人皆濁我獨清”,寧靜致遠洛搀,洞悉事物本質(zhì)敢茁,做事實事求是
誠意:嚴謹真誠
合意:分析的結(jié)果要滿足相關(guān)需求人員的滿意,達到他們的分析目的留美。這就說明在分析前就要清楚他們需要什么彰檬,隨時向他們反映分析的細節(jié)和進度,以便隨時溝通了解需求
2.第一步:數(shù)據(jù)清洗
數(shù)據(jù)處理中独榴,先要對數(shù)據(jù)進行清洗僧叉,包括三步:去重/補缺/檢查邏輯
去重:找到多余重復(fù)的數(shù)據(jù)刪除,這里先說如何找到重復(fù)數(shù)據(jù)
找重法1)函數(shù)法:識別重復(fù)數(shù)據(jù) 使用Excel里的countif函數(shù)對滿足耽擱條件的單元格計數(shù)
countif(range,criteria),兩個參數(shù)為要計數(shù)的單元格棺榔,計數(shù)條件
法2)高級篩選:直接利用[數(shù)據(jù)]中的[排序和篩選]中[高級]選擇[選擇不重復(fù)的記錄]
法3)條件格式:Excel 里設(shè)置了標(biāo)識重復(fù)值的功能瓶堕,[開始]中的[條件格式]中的[突出單元格規(guī)則]中選[重復(fù)值]
法4)數(shù)據(jù)透視表:將要查的屬性放入行標(biāo)簽,再放入值標(biāo)簽就可以看到重復(fù)的數(shù)據(jù)
刪重法1)利用菜單:[數(shù)據(jù)]中的[刪除重復(fù)項]
法2)通過排序:利用函數(shù)識別出重復(fù)值后針對計數(shù)行排序后刪除重復(fù)[開始]里的[編輯部分]的[排序與的篩選]
法3)通過篩選症歇,基本操作大致同上
補缺:一般我們要使用定位輸入郎笆,先用定位輸入找出缺失值為空的單元格,則利用”定位輸入”找到所有空白的單元格忘晤,[開始]中的[編輯]中單擊下拉里的[定位條件]中的[空值]找到所有空值宛蚓,可以通過4種方法處理缺失
法1):用一個樣本統(tǒng)計量的值代替缺失,一般使用樣本的平均值
法2):用一個統(tǒng)計模型計算出值代替缺失设塔,常用模型為“回歸模型凄吏,判別模型”,使用專業(yè)的分析軟件
法3):刪除缺失值記錄(會減少樣本量)
法4):將所有的缺失的記錄保留,僅在相應(yīng)的分析中做必要的排除痕钢,變量間邏輯關(guān)系簡單图柏,缺失值較少時可以使用
此時定位出所有缺失值,在其中一個單元格輸入平均值任连,然后ctrl+enter直接一次填入所有的缺失單元格
查找ctrl+F 替換ctrl+H
檢查邏輯:錯誤數(shù)據(jù)分為:輸入錯誤/錄入錯誤
對于錯誤數(shù)據(jù)蚤吹,首先利用if檢查,錯誤數(shù)據(jù)返回“false”正確數(shù)據(jù)返回“true",再利用[條件格式]檢查第二類錯誤随抠,如輸入的數(shù)字只能為“0”裁着,“1”,錄入其他數(shù)字拱她,將單元格突出
if(logical_test,value_if_true,value_if_false)二驰,第一個參數(shù)表示表達式,第二個結(jié)果“真”返回值椭懊,第三個為結(jié)果“假”返回值
檢查邏輯錯誤诸蚕,[開始]中的[條件格式]中的[突出單元格]的[其他規(guī)則]的[使用公式確定單元格]中輸入“=or函數(shù)()=false”判斷步势,意思是如果單元格的值不是不啦不拉氧猬,就突出單元格
or(logical1,logical2,...)
and(logical1,logical2,...)