今天璃俗,SPSSAU給大家?guī)?b>[數(shù)據(jù)分析思維培養(yǎng)]系列課程死讹。主要針對第一次接觸數(shù)據(jù)分析召嘶,完全不懂分析的小白用戶父晶,或者懂一些簡單方法但苦于沒有分析思路,不知道如何規(guī)范化分析弄跌。
本文章為SPSSAU數(shù)據(jù)分析思維培養(yǎng)的第一篇文章甲喝。
想要進(jìn)行科學(xué)的數(shù)據(jù)分析,正確的數(shù)據(jù)格式铛只,以及正常的數(shù)據(jù)是最基本的埠胖。而且數(shù)據(jù)的準(zhǔn)備和數(shù)據(jù)的理解,正是科學(xué)的數(shù)據(jù)分析思維必備條件之一淳玩。
想要準(zhǔn)備好自己的數(shù)據(jù)直撤,需要從以下六個方面進(jìn)行處理:
第1點(diǎn),是需要準(zhǔn)備好正確的數(shù)據(jù)格式
第2點(diǎn)蜕着,在于對數(shù)據(jù)的基本處理谋竖,包括數(shù)據(jù)標(biāo)簽、數(shù)據(jù)編碼和生成變量等
第3點(diǎn)承匣,是一些分析方法需要的數(shù)據(jù)特殊格式準(zhǔn)備
第4點(diǎn)蓖乘,是數(shù)據(jù)異常值,或者無效樣本數(shù)據(jù)的處理
第5點(diǎn)韧骗,是數(shù)據(jù)基本特征探索
第6點(diǎn)嘉抒,是一些其它注意事項(xiàng)等
第1點(diǎn),數(shù)據(jù)格式
在進(jìn)行數(shù)據(jù)分析前宽闲,數(shù)據(jù)的準(zhǔn)備是第一點(diǎn)众眨,不論是使用數(shù)據(jù)庫下載的數(shù)據(jù)握牧,或者實(shí)驗(yàn)數(shù)據(jù)容诬,也或者問卷調(diào)查數(shù)據(jù),手工錄入數(shù)據(jù)等沿腰。不論是直接從系統(tǒng)下載的原始數(shù)據(jù)览徒,還是自己手工錄入的數(shù)據(jù),均需要按照數(shù)據(jù)分析思維的規(guī)范格式進(jìn)行颂龙,否則任何軟件都無法分析习蓬。
但通常情況下纽什,很多人都會忽略此步驟,認(rèn)識有了數(shù)據(jù)馬上就可以分析躲叼,其實(shí)不然芦缰,準(zhǔn)備數(shù)據(jù)和數(shù)據(jù)的基本處理也屬于數(shù)據(jù)分析的范疇,而且正常情況下數(shù)據(jù)處理花的時(shí)間占比會超過50%枫慷,也即是說想完成一項(xiàng)分析让蕾,其實(shí)有超過50%的時(shí)間(多數(shù)情況下會是70%左右)都是在準(zhǔn)備數(shù)據(jù)上。
接下來以例子說明下什么是正確的數(shù)據(jù)格式或听,首先看下常見的錯誤數(shù)據(jù)格式例子如下圖:
上圖為是最為常見的一種錯誤數(shù)據(jù)格式探孝,手工錄入到EXCEL里面的時(shí)候,非常的隨意誉裆,想如何就如何顿颅。但一旦想進(jìn)行分析的時(shí)候就會出錯,那是由于EXCEL是表格軟件足丢,而不是數(shù)據(jù)分析軟件粱腻,所以隨意的格式都可以。
上圖中出現(xiàn)了5個常見的問題斩跌,分別是:
第1:出現(xiàn)合并單元格栖疑,A1和A2這兩個單元格合并,在分析的時(shí)候軟件就不知道名字應(yīng)該叫什么滔驶,所以直接無法上傳到軟件中遇革;
第2:C1這個單元格本身是標(biāo)識體重信息,但直接為空揭糕,分析軟件可不知道空就是‘體重’的意思萝快,這是非常明顯的錯誤;
第3:A列里面為性別著角,但是數(shù)據(jù)非常不規(guī)范揪漩,男,男性吏口,MALE這三個詞語都是男奄容,但是分析軟件會認(rèn)為這是3個不同的名詞,這也可以很好的解釋為什么‘填空題’這種雜亂無章的數(shù)據(jù)通常是無法分析的原因产徊;
第4:B8這個格子里面為‘平均為175’昂勒,這是錯誤的耸三。原因在于B列是標(biāo)識身高信息踏烙,而不是平均身高信息蜘欲,如果需要得到平均身高挽封,讓分析軟件幫你計(jì)算就好适篙;
第5:C7這個格式為‘無數(shù)據(jù)’渺鹦,其實(shí)就是缺失數(shù)據(jù)约巷,直接空著就好枝冀,否則分析軟件會認(rèn)為‘無數(shù)據(jù)’是一個數(shù)據(jù)信息。
上述已經(jīng)列出常見的錯誤特征刁岸,接下來說明正確的數(shù)據(jù)格式如下:
規(guī)范的數(shù)據(jù)格式(可用于數(shù)據(jù)分析)應(yīng)該是這樣脏里,第1行為‘標(biāo)題’即具體名字,第2行起為具體的數(shù)據(jù)虹曙,且不能有合并單元格的情況膝宁,如果為空值即缺失值,直接不錄入就好根吁。并且數(shù)據(jù)信息需要規(guī)范员淫,比如男,男性击敌,MALE這三個詞語都應(yīng)該規(guī)范成‘男’介返。
任何的分析軟件都應(yīng)該提供規(guī)范的數(shù)據(jù)格式才能分析,以SPSSAU為例沃斤,其支持的數(shù)據(jù)格式說明如下圣蝎,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三種類型)衡瓶,SAV(SPSS格式等)徘公,使用SPSSAU右上角‘我的數(shù)據(jù)’上傳數(shù)據(jù)后即成功導(dǎo)入了數(shù)據(jù)。
需要特別說明的一點(diǎn)是:數(shù)據(jù)分析軟件事實(shí)上只認(rèn)識數(shù)字哮针,比如上例中的‘男’关面,‘女’,軟件是不認(rèn)識的十厢,那么軟件如何處理呢等太。它會自動把‘男’或‘女’用數(shù)字1或2進(jìn)行表示,然后打上數(shù)字的標(biāo)簽蛮放,分析出來后數(shù)字1的時(shí)候就會顯示成‘男’缩抡,數(shù)字2就會顯示成‘女’。任何的機(jī)器原理上都只認(rèn)識數(shù)字而不認(rèn)識文字包颁,全部都是將文字‘?dāng)?shù)字化’處理瞻想。因此接下來會進(jìn)行一些數(shù)字標(biāo)簽,以及數(shù)據(jù)基本處理的說明娩嚼。
除此之外還需要說明一點(diǎn)是:如果有多份數(shù)據(jù)蘑险,這是需要自己合并整理在一個EXCEL工作表里面才可以,分析軟件是無法知道多份數(shù)據(jù)分別代表什么意思待锈,需要自己手工將數(shù)據(jù)合并整理在一個工作表里面后才能進(jìn)一步分析漠其。
第2點(diǎn),數(shù)據(jù)標(biāo)簽及編碼處理等
上一點(diǎn)已經(jīng)說明正確的數(shù)據(jù)之后竿音,接下來說明下數(shù)據(jù)的基本處理和屎,包括數(shù)據(jù)標(biāo)簽、數(shù)據(jù)編碼和生成變量春瞬。關(guān)于數(shù)據(jù)處理相關(guān)的操作柴信,SPSSAU截圖如下:
完成正確的數(shù)據(jù)上傳后,那么數(shù)字代表的意義是什么呢宽气?比如數(shù)字1表示男随常,數(shù)字2表示女,這需要告訴軟件才可以萄涯,這即是數(shù)據(jù)標(biāo)簽的功能绪氛,SPSSAU操作如下:
除了數(shù)據(jù)標(biāo)簽外,有時(shí)候還可能需要進(jìn)行數(shù)據(jù)編碼處理涝影,比如希望對年齡分成3個組別枣察,分別是20以下,20~30燃逻,30以上序目。此時(shí)就需要使用數(shù)據(jù)編碼處理,如下圖:
上圖中顯示伯襟,將0~20歲編碼成數(shù)字1猿涨;20~30編碼成數(shù)字2;30到100編碼成數(shù)字3姆怪;當(dāng)然至于數(shù)字1叛赚,2,3分別代表的意義稽揭,只有分析人員自己才知道红伦,所以一般還需要使用數(shù)據(jù)標(biāo)簽功能去標(biāo)識出數(shù)字1,2淀衣,3代表的意義昙读。
很多時(shí)候還需要對數(shù)據(jù)生成變量處理,比如說對體重或者身高求對數(shù)處理膨桥,或者對數(shù)據(jù)開根號蛮浑,取絕對值,求和只嚣,求平均值處理等沮稚,那么可使用SPSSAU生成變量功能,SPSSAU提供大約30類數(shù)據(jù)處理的功能基本上可以滿足所有人的需求册舞。當(dāng)然有時(shí)候還需要更多的處理蕴掏,可使用‘高級公式’自己輸入公式處理即可。
在完成數(shù)據(jù)編碼,生成變量之后盛杰,有可能會想對‘標(biāo)題名稱’修改或者刪除掉多余項(xiàng)挽荡,此時(shí)可使用SPSSAU‘標(biāo)題處理’功能即可。
第3點(diǎn)即供,分析方法數(shù)據(jù)格式
在完成正確的數(shù)據(jù)上傳及數(shù)據(jù)處理后定拟,通常就可以開始進(jìn)行正常的分析了,絕大多數(shù)的分析都可以完成逗嫡。但有的時(shí)候青自,個別研究方法對于數(shù)據(jù)格式是有特殊要求的,所以還需要按照其特征的數(shù)據(jù)格式要求進(jìn)行準(zhǔn)備數(shù)據(jù)驱证,比如卡方檢驗(yàn)時(shí)有時(shí)提供的是‘加權(quán)’數(shù)據(jù)格式延窜,kappa一致性檢驗(yàn),模糊綜合評價(jià)分析方法等特別分析方法時(shí)抹锄,對于數(shù)據(jù)的格式有特殊的要求逆瑞,建議可直接查看SPSSAU幫助手冊里面的案例數(shù)據(jù)格式,當(dāng)然也可以直接使用SPSSAU的案例數(shù)據(jù)里面的格式模仿參考進(jìn)行即可祈远。
具體可在此頁面查看SPSSAU的案例數(shù)據(jù)格式:https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html
第4點(diǎn)呆万,數(shù)據(jù)異常或無效處理
對于上傳后的數(shù)據(jù)车份,有時(shí)候會出現(xiàn)異常情況谋减,比如正常男性成年人的身高是介于1.5~2米之間,但是如果出現(xiàn)一個數(shù)據(jù)為1.2米扫沼,那這種異常數(shù)據(jù)在分析之前是需要進(jìn)行處理才可以出爹,一般情況下是把該值直接設(shè)置成null值。SPSSAU操作如下:
也有的時(shí)候會對數(shù)據(jù)標(biāo)識為無效樣本缎除,比如一份關(guān)于淘寶購物滿意度的問卷严就,填寫者全部都填寫完全相同的答案,說明該樣本沒有認(rèn)真填寫器罐,此時(shí)可將該樣本設(shè)置為無效樣本梢为,SPSSAU操作如下圖(將相同數(shù)字大于70%設(shè)置成無效樣本):
第5點(diǎn),數(shù)據(jù)基本特征探索
通常在分析前轰坊,還需要首先探索下數(shù)據(jù)的特征铸董,看下數(shù)據(jù)是否有異常情況,大概看下數(shù)據(jù)的特征情況等肴沫,便于做到心中有數(shù)粟害,比如正常男性成年人身高是介于1.5~2米之間,但數(shù)據(jù)中有沒有異常值呢颤芬,通潮可使用描述分析大概看下就好套鹅。如下圖中最小值是1.69米,最大是1.82米汰具,都是正常數(shù)據(jù)卓鹿。
當(dāng)然還可以查看一些更深入的數(shù)據(jù)指標(biāo),比如百分位數(shù)等郁副,如下圖:
另外也可以使用箱線圖减牺、或者散點(diǎn)圖等看下是否有異常數(shù)據(jù)豌习,SPSSAU可視化里面均有提供存谎。
第6點(diǎn),其它
數(shù)據(jù)的準(zhǔn)備和清理是進(jìn)行數(shù)據(jù)分析的第一步肥隆,而且正常情況下既荚,此步驟占用了數(shù)據(jù)分析超過50%(大部分情況下是70%)的時(shí)間,但此步驟非常容易被普通用戶忽略栋艳。
完成數(shù)據(jù)準(zhǔn)備和基本的清理恰聘,數(shù)據(jù)異常,數(shù)據(jù)無效吸占,以及數(shù)據(jù)特征探索之后晴叨,才能開始進(jìn)入下一步,即正常的數(shù)據(jù)分析矾屯。否則后面分析發(fā)現(xiàn)有著異常數(shù)據(jù)或者無效數(shù)據(jù)兼蕊,也或者錯誤的數(shù)據(jù),那么中間所有的分析都會白費(fèi)件蚕。
預(yù)告一下接下來的幾期內(nèi)容: