數(shù)據(jù)分析思維培養(yǎng)之一:數(shù)據(jù)思維


今天璃俗,SPSSAU給大家?guī)?b>[數(shù)據(jù)分析思維培養(yǎng)]系列課程死讹。主要針對第一次接觸數(shù)據(jù)分析召嘶,完全不懂分析的小白用戶父晶,或者懂一些簡單方法但苦于沒有分析思路,不知道如何規(guī)范化分析弄跌。

本文章為SPSSAU數(shù)據(jù)分析思維培養(yǎng)的第一篇文章甲喝。




想要進(jìn)行科學(xué)的數(shù)據(jù)分析,正確的數(shù)據(jù)格式铛只,以及正常的數(shù)據(jù)是最基本的埠胖。而且數(shù)據(jù)的準(zhǔn)備和數(shù)據(jù)的理解,正是科學(xué)的數(shù)據(jù)分析思維必備條件之一淳玩。


想要準(zhǔn)備好自己的數(shù)據(jù)直撤,需要從以下六個方面進(jìn)行處理:

第1點(diǎn),是需要準(zhǔn)備好正確的數(shù)據(jù)格式

第2點(diǎn)蜕着,在于對數(shù)據(jù)的基本處理谋竖,包括數(shù)據(jù)標(biāo)簽、數(shù)據(jù)編碼和生成變量等

第3點(diǎn)承匣,是一些分析方法需要的數(shù)據(jù)特殊格式準(zhǔn)備

第4點(diǎn)蓖乘,是數(shù)據(jù)異常值,或者無效樣本數(shù)據(jù)的處理

第5點(diǎn)韧骗,是數(shù)據(jù)基本特征探索

第6點(diǎn)嘉抒,是一些其它注意事項(xiàng)等


第1點(diǎn)數(shù)據(jù)格式

在進(jìn)行數(shù)據(jù)分析前宽闲,數(shù)據(jù)的準(zhǔn)備是第一點(diǎn)众眨,不論是使用數(shù)據(jù)庫下載的數(shù)據(jù)握牧,或者實(shí)驗(yàn)數(shù)據(jù)容诬,也或者問卷調(diào)查數(shù)據(jù),手工錄入數(shù)據(jù)等沿腰。不論是直接從系統(tǒng)下載的原始數(shù)據(jù)览徒,還是自己手工錄入的數(shù)據(jù),均需要按照數(shù)據(jù)分析思維的規(guī)范格式進(jìn)行颂龙,否則任何軟件都無法分析习蓬。


但通常情況下纽什,很多人都會忽略此步驟,認(rèn)識有了數(shù)據(jù)馬上就可以分析躲叼,其實(shí)不然芦缰,準(zhǔn)備數(shù)據(jù)和數(shù)據(jù)的基本處理也屬于數(shù)據(jù)分析的范疇,而且正常情況下數(shù)據(jù)處理花的時(shí)間占比會超過50%枫慷,也即是說想完成一項(xiàng)分析让蕾,其實(shí)有超過50%的時(shí)間(多數(shù)情況下會是70%左右)都是在準(zhǔn)備數(shù)據(jù)上。


接下來以例子說明下什么是正確的數(shù)據(jù)格式或听,首先看下常見的錯誤數(shù)據(jù)格式例子如下圖:


上圖為是最為常見的一種錯誤數(shù)據(jù)格式探孝,手工錄入到EXCEL里面的時(shí)候,非常的隨意誉裆,想如何就如何顿颅。但一旦想進(jìn)行分析的時(shí)候就會出錯,那是由于EXCEL是表格軟件足丢,而不是數(shù)據(jù)分析軟件粱腻,所以隨意的格式都可以。


上圖中出現(xiàn)了5個常見的問題斩跌,分別是:

第1:出現(xiàn)合并單元格栖疑,A1和A2這兩個單元格合并,在分析的時(shí)候軟件就不知道名字應(yīng)該叫什么滔驶,所以直接無法上傳到軟件中遇革;

第2:C1這個單元格本身是標(biāo)識體重信息,但直接為空揭糕,分析軟件可不知道空就是‘體重’的意思萝快,這是非常明顯的錯誤;

第3:A列里面為性別著角,但是數(shù)據(jù)非常不規(guī)范揪漩,男,男性吏口,MALE這三個詞語都是男奄容,但是分析軟件會認(rèn)為這是3個不同的名詞,這也可以很好的解釋為什么‘填空題’這種雜亂無章的數(shù)據(jù)通常是無法分析的原因产徊;

第4:B8這個格子里面為‘平均為175’昂勒,這是錯誤的耸三。原因在于B列是標(biāo)識身高信息踏烙,而不是平均身高信息蜘欲,如果需要得到平均身高挽封,讓分析軟件幫你計(jì)算就好适篙;

第5:C7這個格式為‘無數(shù)據(jù)’渺鹦,其實(shí)就是缺失數(shù)據(jù)约巷,直接空著就好枝冀,否則分析軟件會認(rèn)為‘無數(shù)據(jù)’是一個數(shù)據(jù)信息。


上述已經(jīng)列出常見的錯誤特征刁岸,接下來說明正確的數(shù)據(jù)格式如下:



規(guī)范的數(shù)據(jù)格式(可用于數(shù)據(jù)分析)應(yīng)該是這樣脏里,第1行為‘標(biāo)題’即具體名字,第2行起為具體的數(shù)據(jù)虹曙,且不能有合并單元格的情況膝宁,如果為空值即缺失值,直接不錄入就好根吁。并且數(shù)據(jù)信息需要規(guī)范员淫,比如男,男性击敌,MALE這三個詞語都應(yīng)該規(guī)范成‘男’介返。


任何的分析軟件都應(yīng)該提供規(guī)范的數(shù)據(jù)格式才能分析,以SPSSAU為例沃斤,其支持的數(shù)據(jù)格式說明如下圣蝎,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三種類型)衡瓶,SAV(SPSS格式等)徘公,使用SPSSAU右上角‘我的數(shù)據(jù)’上傳數(shù)據(jù)后即成功導(dǎo)入了數(shù)據(jù)。


需要特別說明的一點(diǎn)是:數(shù)據(jù)分析軟件事實(shí)上只認(rèn)識數(shù)字哮针,比如上例中的‘男’关面,‘女’,軟件是不認(rèn)識的十厢,那么軟件如何處理呢等太。它會自動把‘男’或‘女’用數(shù)字1或2進(jìn)行表示,然后打上數(shù)字的標(biāo)簽蛮放,分析出來后數(shù)字1的時(shí)候就會顯示成‘男’缩抡,數(shù)字2就會顯示成‘女’。任何的機(jī)器原理上都只認(rèn)識數(shù)字而不認(rèn)識文字包颁,全部都是將文字‘?dāng)?shù)字化’處理瞻想。因此接下來會進(jìn)行一些數(shù)字標(biāo)簽,以及數(shù)據(jù)基本處理的說明娩嚼。


除此之外還需要說明一點(diǎn)是:如果有多份數(shù)據(jù)蘑险,這是需要自己合并整理在一個EXCEL工作表里面才可以,分析軟件是無法知道多份數(shù)據(jù)分別代表什么意思待锈,需要自己手工將數(shù)據(jù)合并整理在一個工作表里面后才能進(jìn)一步分析漠其。


第2點(diǎn)數(shù)據(jù)標(biāo)簽及編碼處理等

上一點(diǎn)已經(jīng)說明正確的數(shù)據(jù)之后竿音,接下來說明下數(shù)據(jù)的基本處理和屎,包括數(shù)據(jù)標(biāo)簽、數(shù)據(jù)編碼和生成變量春瞬。關(guān)于數(shù)據(jù)處理相關(guān)的操作柴信,SPSSAU截圖如下:



完成正確的數(shù)據(jù)上傳后,那么數(shù)字代表的意義是什么呢宽气?比如數(shù)字1表示男随常,數(shù)字2表示女,這需要告訴軟件才可以萄涯,這即是數(shù)據(jù)標(biāo)簽的功能绪氛,SPSSAU操作如下:


除了數(shù)據(jù)標(biāo)簽外,有時(shí)候還可能需要進(jìn)行數(shù)據(jù)編碼處理涝影,比如希望對年齡分成3個組別枣察,分別是20以下,20~30燃逻,30以上序目。此時(shí)就需要使用數(shù)據(jù)編碼處理,如下圖:



上圖中顯示伯襟,將0~20歲編碼成數(shù)字1猿涨;20~30編碼成數(shù)字2;30到100編碼成數(shù)字3姆怪;當(dāng)然至于數(shù)字1叛赚,2,3分別代表的意義稽揭,只有分析人員自己才知道红伦,所以一般還需要使用數(shù)據(jù)標(biāo)簽功能去標(biāo)識出數(shù)字1,2淀衣,3代表的意義昙读。



很多時(shí)候還需要對數(shù)據(jù)生成變量處理,比如說對體重或者身高求對數(shù)處理膨桥,或者對數(shù)據(jù)開根號蛮浑,取絕對值,求和只嚣,求平均值處理等沮稚,那么可使用SPSSAU生成變量功能,SPSSAU提供大約30類數(shù)據(jù)處理的功能基本上可以滿足所有人的需求册舞。當(dāng)然有時(shí)候還需要更多的處理蕴掏,可使用‘高級公式’自己輸入公式處理即可。


在完成數(shù)據(jù)編碼,生成變量之后盛杰,有可能會想對‘標(biāo)題名稱’修改或者刪除掉多余項(xiàng)挽荡,此時(shí)可使用SPSSAU‘標(biāo)題處理’功能即可。


第3點(diǎn)即供,分析方法數(shù)據(jù)格式

在完成正確的數(shù)據(jù)上傳及數(shù)據(jù)處理后定拟,通常就可以開始進(jìn)行正常的分析了,絕大多數(shù)的分析都可以完成逗嫡。但有的時(shí)候青自,個別研究方法對于數(shù)據(jù)格式是有特殊要求的,所以還需要按照其特征的數(shù)據(jù)格式要求進(jìn)行準(zhǔn)備數(shù)據(jù)驱证,比如卡方檢驗(yàn)時(shí)有時(shí)提供的是‘加權(quán)’數(shù)據(jù)格式延窜,kappa一致性檢驗(yàn),模糊綜合評價(jià)分析方法等特別分析方法時(shí)抹锄,對于數(shù)據(jù)的格式有特殊的要求逆瑞,建議可直接查看SPSSAU幫助手冊里面的案例數(shù)據(jù)格式,當(dāng)然也可以直接使用SPSSAU的案例數(shù)據(jù)里面的格式模仿參考進(jìn)行即可祈远。

具體可在此頁面查看SPSSAU的案例數(shù)據(jù)格式:https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html


第4點(diǎn)呆万,數(shù)據(jù)異常或無效處理

對于上傳后的數(shù)據(jù)车份,有時(shí)候會出現(xiàn)異常情況谋减,比如正常男性成年人的身高是介于1.5~2米之間,但是如果出現(xiàn)一個數(shù)據(jù)為1.2米扫沼,那這種異常數(shù)據(jù)在分析之前是需要進(jìn)行處理才可以出爹,一般情況下是把該值直接設(shè)置成null值。SPSSAU操作如下:



也有的時(shí)候會對數(shù)據(jù)標(biāo)識為無效樣本缎除,比如一份關(guān)于淘寶購物滿意度的問卷严就,填寫者全部都填寫完全相同的答案,說明該樣本沒有認(rèn)真填寫器罐,此時(shí)可將該樣本設(shè)置為無效樣本梢为,SPSSAU操作如下圖(將相同數(shù)字大于70%設(shè)置成無效樣本):



第5點(diǎn)數(shù)據(jù)基本特征探索

通常在分析前轰坊,還需要首先探索下數(shù)據(jù)的特征铸董,看下數(shù)據(jù)是否有異常情況,大概看下數(shù)據(jù)的特征情況等肴沫,便于做到心中有數(shù)粟害,比如正常男性成年人身高是介于1.5~2米之間,但數(shù)據(jù)中有沒有異常值呢颤芬,通潮可使用描述分析大概看下就好套鹅。如下圖中最小值是1.69米,最大是1.82米汰具,都是正常數(shù)據(jù)卓鹿。



當(dāng)然還可以查看一些更深入的數(shù)據(jù)指標(biāo),比如百分位數(shù)等郁副,如下圖:



另外也可以使用箱線圖减牺、或者散點(diǎn)圖等看下是否有異常數(shù)據(jù)豌习,SPSSAU可視化里面均有提供存谎。

第6點(diǎn)其它

數(shù)據(jù)的準(zhǔn)備和清理是進(jìn)行數(shù)據(jù)分析的第一步肥隆,而且正常情況下既荚,此步驟占用了數(shù)據(jù)分析超過50%(大部分情況下是70%)的時(shí)間,但此步驟非常容易被普通用戶忽略栋艳。


完成數(shù)據(jù)準(zhǔn)備和基本的清理恰聘,數(shù)據(jù)異常,數(shù)據(jù)無效吸占,以及數(shù)據(jù)特征探索之后晴叨,才能開始進(jìn)入下一步,即正常的數(shù)據(jù)分析矾屯。否則后面分析發(fā)現(xiàn)有著異常數(shù)據(jù)或者無效數(shù)據(jù)兼蕊,也或者錯誤的數(shù)據(jù),那么中間所有的分析都會白費(fèi)件蚕。



預(yù)告一下接下來的幾期內(nèi)容:


感興趣的同學(xué)千萬別錯過孙技!
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市排作,隨后出現(xiàn)的幾起案子牵啦,更是在濱河造成了極大的恐慌,老刑警劉巖妄痪,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哈雏,死亡現(xiàn)場離奇詭異,居然都是意外死亡衫生,警方通過查閱死者的電腦和手機(jī)裳瘪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來障簿,“玉大人盹愚,你說我怎么就攤上這事≌竟剩” “怎么了皆怕?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵毅舆,是天一觀的道長。 經(jīng)常有香客問我愈腾,道長憋活,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任虱黄,我火速辦了婚禮悦即,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘橱乱。我一直安慰自己辜梳,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布泳叠。 她就那樣靜靜地躺著作瞄,像睡著了一般。 火紅的嫁衣襯著肌膚如雪危纫。 梳的紋絲不亂的頭發(fā)上宗挥,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天,我揣著相機(jī)與錄音种蝶,去河邊找鬼契耿。 笑死,一個胖子當(dāng)著我的面吹牛螃征,可吹牛的內(nèi)容都是我干的搪桂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼会傲,長吁一口氣:“原來是場噩夢啊……” “哼锅棕!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起淌山,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤裸燎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后泼疑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體德绿,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年退渗,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了移稳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡会油,死狀恐怖个粱,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情翻翩,我是刑警寧澤都许,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布稻薇,位于F島的核電站,受9級特大地震影響胶征,放射性物質(zhì)發(fā)生泄漏塞椎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一睛低、第九天 我趴在偏房一處隱蔽的房頂上張望案狠。 院中可真熱鬧,春花似錦钱雷、人聲如沸骂铁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽从铲。三九已至瘪校,卻和暖如春澄暮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背阱扬。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工泣懊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人麻惶。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓馍刮,卻偏偏與公主長得像,于是被迫代替她去往敵國和親窃蹋。 傳聞我的和親對象是個殘疾皇子卡啰,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容