SPSS難嗎?無非就是數(shù)據(jù)類型的區(qū)別后,就能理解應(yīng)該用什么樣的分析方法,對(duì)應(yīng)著分析方法無非是找一些參考資料進(jìn)行即可史汗。甚至在線網(wǎng)頁SPSS軟件直接可以將數(shù)據(jù)分析結(jié)果指標(biāo)人工智能地分析出來,這有多難呢拒垃?本文章將周老師(統(tǒng)計(jì)學(xué)專家)8年的數(shù)據(jù)分析經(jīng)驗(yàn)濃縮停撞,便于讓不會(huì)數(shù)據(jù)分析的同學(xué),在學(xué)習(xí)數(shù)據(jù)分析的過程中可以少走彎路悼瓮,樹立數(shù)據(jù)分析價(jià)值觀戈毒,以及以數(shù)據(jù)進(jìn)行決策的思維意識(shí)艰猬,并且可以快速的掌握數(shù)據(jù)分析。本文章分為四個(gè)板塊進(jìn)行說明副硅,一是數(shù)據(jù)分析思維的培養(yǎng)姥宝。二是數(shù)據(jù)間的幾類關(guān)系情況翅萤。三是數(shù)據(jù)分析方法的選擇恐疲。四是數(shù)據(jù)研究的撰寫等。
相對(duì)來講套么,我們國家對(duì)于數(shù)據(jù)價(jià)值的重視是最近幾年才開始培己,尤其是大數(shù)據(jù)時(shí)代的興起,以及人工智能時(shí)代的國家戰(zhàn)略情況胚泌。之前企業(yè)進(jìn)行決策時(shí)基本均是憑借主觀經(jīng)驗(yàn)省咨,老板的經(jīng)驗(yàn)決定企業(yè)的成長(zhǎng),這也許叫做‘定性研究’較為適合玷室,這種思路并沒有錯(cuò)誤零蓉。相對(duì)來講,主觀個(gè)人偏好性是這種經(jīng)驗(yàn)意識(shí)的弊端穷缤,而數(shù)據(jù)思維是用真實(shí)的數(shù)據(jù)作為依據(jù)敌蜂,相對(duì)來講具有更強(qiáng)的科學(xué)客觀性。但兩種思維各有優(yōu)缺點(diǎn)津肛,數(shù)據(jù)還可以造假章喉,以及人們還可能會(huì)錯(cuò)誤的利用數(shù)據(jù)等。
但無論如何身坐,西方的數(shù)據(jù)意識(shí)秸脱,以及數(shù)據(jù)價(jià)值客觀存在。我們有必要對(duì)其進(jìn)行重視部蛇。作為數(shù)據(jù)研究人員摊唇,首先需要確保的是對(duì)數(shù)據(jù)的敬仰,錯(cuò)誤的數(shù)據(jù)絕對(duì)無法容忍涯鲁,否則永遠(yuǎn)不會(huì)得出科學(xué)的結(jié)論遏片。因而數(shù)據(jù)分析思維的素養(yǎng)第一層次即尊重?cái)?shù)據(jù)。原始數(shù)據(jù)代表的意義撮竿,數(shù)據(jù)自身帶來的屬性等均應(yīng)該逐一確認(rèn)吮便。
確認(rèn)數(shù)據(jù)的真實(shí)準(zhǔn)確性后,即完成數(shù)據(jù)清理后幢踏,可對(duì)數(shù)據(jù)類型進(jìn)行區(qū)分髓需,一切數(shù)據(jù)均可分為兩種類型,包括定性和定量數(shù)據(jù)房蝉。如同’定性研究‘和’定量研究‘一樣僚匆,定性數(shù)據(jù)是那些表示分類微渠,通常使用百分比匯總,無法計(jì)算平均值的數(shù)據(jù)咧擂,比如性別逞盆,專業(yè)。性別僅為男和女松申,使用數(shù)字1和數(shù)字2表示云芦,可以分別計(jì)算男和女的比例,但是不能算個(gè)平均分為1.2贸桶,得出性別平均為1.2這樣的分析舅逸。
另外一種數(shù)據(jù)叫定量數(shù)據(jù),定量數(shù)據(jù)是那些可以進(jìn)行量化皇筛,通常使用平均值表示琉历,比如年齡,身高水醋,體重旗笔,滿意度等≈糇伲可以計(jì)算平均年齡蝇恶,但通常不分分析每個(gè)年齡數(shù)字的選擇百分比。
還有一類數(shù)據(jù)宫蛆,其即可以計(jì)算百分比艘包,也可以計(jì)算平均值,比如問卷研究中的滿意度耀盗,數(shù)字1代表非常不滿意想虎,數(shù)字2代表比較不滿意,數(shù)字3代表中立叛拷,數(shù)字4代表比較滿意舌厨,數(shù)字5代表非常滿意。這類數(shù)據(jù)可以計(jì)算各項(xiàng)的百分比忿薇,也可以計(jì)算平均值裙椭。具體此類數(shù)據(jù)如何應(yīng)用,可結(jié)合實(shí)際情況進(jìn)行即可署浩,但通常的偏好是揉燃,如果可以看作為定量數(shù)據(jù),則按照定量數(shù)據(jù)情況進(jìn)行即可筋栋。
在基本的數(shù)據(jù)類型確認(rèn)之后炊汤,接下來再討論下數(shù)據(jù)研究的一些關(guān)系情況。如果是初學(xué)數(shù)據(jù)分析,常規(guī)的路徑可能是開始理解數(shù)據(jù)算法的原理抢腐,然后就懂一個(gè)就去姑曙,接著再學(xué)習(xí)另外一個(gè)算法。這種方法是常規(guī)教科書式的學(xué)習(xí)路徑迈倍,非常慢而且容易出現(xiàn)一個(gè)問題即懂了理論無法進(jìn)行實(shí)踐伤靠。
數(shù)據(jù)分析是挖掘數(shù)據(jù)間的關(guān)系情況,發(fā)現(xiàn)潛在的數(shù)據(jù)規(guī)律啼染,找出數(shù)據(jù)后面潛在的商業(yè)價(jià)值等宴合。本人將數(shù)據(jù)間的關(guān)系歸納匯總為以下三類。第一是差異關(guān)系提完;第二是相關(guān)關(guān)系形纺。第三是其它關(guān)系丘侠。
第一類差異關(guān)系通常是研究不同類別的差異性徒欣,提到了不同類別,那就涉及到定性數(shù)據(jù)蜗字,差異關(guān)系可以包括定性和定量數(shù)據(jù)的差異性打肝,定性和定性數(shù)據(jù)的差異性。自然地也就對(duì)應(yīng)到幾類研究方法挪捕。
第二類為相關(guān)關(guān)系粗梭。比如越如何越如何之類的關(guān)系。包括相關(guān)關(guān)系级零,還有影響關(guān)系等断医。X對(duì)于Y的影響關(guān)系情況如何等,此時(shí)影響關(guān)系又拆分出幾種分析算法奏纪。
當(dāng)然還有其它關(guān)系鉴嗤,比如數(shù)據(jù)的濃縮,聚類序调。此時(shí)又分涉及到對(duì)應(yīng)的研究方法醉锅。
在進(jìn)行數(shù)據(jù)研究時(shí),首先需要想到的是“我想做什么发绢?“硬耍,來回就只有三種關(guān)系,那么這種關(guān)系有著明顯的區(qū)分性边酒,對(duì)應(yīng)確認(rèn)關(guān)系情況经柴,加上數(shù)據(jù)類型的判斷,對(duì)應(yīng)就會(huì)找出合理的數(shù)據(jù)研究方法墩朦。接下來一一概述坯认。
上面兩部分分別講述了數(shù)據(jù)類型和數(shù)據(jù)關(guān)系情況。接著需要落地,即研究方法的使用鹃操。按照上一部分的思路韭寸,即三類關(guān)系情況進(jìn)行闡述。
第一類為差異關(guān)系
· 定性和定性數(shù)據(jù)差異關(guān)系荆隘。比如性別和專業(yè)的差異關(guān)系恩伺,不同性別人群專業(yè)偏好上有沒有差異呢?此時(shí)應(yīng)該用卡方分析椰拒。
· 定性和定量數(shù)據(jù)差異關(guān)系晶渠。比如性別和身高的差異關(guān)系,不同性別人群身高有沒有明顯的差異性呢燃观?此時(shí)應(yīng)該用方差分析或者T檢驗(yàn)褒脯。至于方差分析和T檢驗(yàn)的區(qū)別上,比如性別為兩類缆毁,則可以使用方差分析或者T檢驗(yàn)番川;比如研究城市和身高的關(guān)系,一線脊框,二線或者三線城市人群他們的身高有沒有明顯差異性颁督。比較了三組人群,這時(shí)候只能用方差分析浇雹,不能用T檢驗(yàn)沉御。因?yàn)榉讲罘治隹梢詫?duì)比多組,而T檢驗(yàn)只能對(duì)比兩組昭灵。
· 定量數(shù)據(jù)和定量數(shù)據(jù)的差異吠裆。有時(shí)候做實(shí)驗(yàn),比如新型教學(xué)方式的使用烂完,在使用前和使用后试疙,學(xué)生成績(jī)有沒有明顯的變化呢?此時(shí)則應(yīng)該使用配對(duì)T檢驗(yàn)窜护。配對(duì)T檢驗(yàn)通常都是用于實(shí)驗(yàn)研究中效斑,使用時(shí)相對(duì)需要注意下。
· 定量數(shù)據(jù)和數(shù)字的差異柱徙。比如中國人的平均身高是否明顯的高于1.70缓屠。定量數(shù)據(jù)和一個(gè)數(shù)字的差異性,此時(shí)應(yīng)該用單樣本T檢驗(yàn)护侮。
· 當(dāng)然還有其它一些研究方法敌完,但先從基礎(chǔ)的開始,懂了這些方法后羊初,再逐一深入學(xué)習(xí)滨溉。明白了這幾類差異關(guān)系什湘,事實(shí)上已經(jīng)理解一部分?jǐn)?shù)據(jù)分析。比如差異關(guān)系研究時(shí)有時(shí)候會(huì)有非參數(shù)檢驗(yàn)晦攒,這類研究都是和正態(tài)性闽撤,方差齊這兩個(gè)名詞緊密相關(guān),后續(xù)的文章再慢慢剖析脯颜。
第二類為相關(guān)關(guān)系
· 定量和定量數(shù)據(jù)的相關(guān)關(guān)系哟旗。比如身高和體重之間有沒有關(guān)系?此時(shí)則應(yīng)該使用相關(guān)分析栋操。至于相關(guān)分析闸餐,又可以再細(xì)分為pearson和spearman相關(guān),這兩類關(guān)系是結(jié)合數(shù)據(jù)正態(tài)性情況而定矾芙,正常情況下都默認(rèn)使用pearson相關(guān)分析舍沙。
· 影響關(guān)系情況(X對(duì)Y的影響,Y為定量數(shù)據(jù))剔宪。比如研究學(xué)歷拂铡,年齡,收入歼跟,滿意度等對(duì)于消費(fèi)金額的影響和媳。此時(shí)一般是使用回歸分析格遭,或者更多稱作是線性回歸分析哈街。也有時(shí)候會(huì)使用到非線性回歸分析,但這種情況相對(duì)較少拒迅。線性回歸分析也可以再細(xì)分為2類骚秦,簡(jiǎn)單線性(一元線性)和多元線性,研究X對(duì)Y的影響璧微,如果X僅為1個(gè)則稱作簡(jiǎn)單線性(一元線性)作箍;如果X為多個(gè),此時(shí)稱作多元線性回歸分析前硫。如果Y的個(gè)數(shù)超過1個(gè)胞得,可以多進(jìn)行幾次回歸就好,更復(fù)雜的可以使用結(jié)構(gòu)方程模型進(jìn)行研究屹电。線性回歸時(shí)X可以為定性數(shù)據(jù)也可以為定量數(shù)據(jù)阶剑,如果是定性數(shù)據(jù)則需要進(jìn)行虛擬變量(啞變量)設(shè)置。
· 影響關(guān)系情況(X對(duì)Y的影響危号,Y為定類數(shù)據(jù))牧愁。比如研究學(xué)歷,年齡外莲,收入猪半,滿意度等對(duì)于是否購買iPhone X的影響。此時(shí)應(yīng)該使用logistic回歸分析。線性回歸和logistic回歸的區(qū)別在于磨确,線性回歸時(shí)沽甥,Y為定量數(shù)據(jù);logistic回歸分析時(shí)乏奥,Y是定類數(shù)據(jù)安接。當(dāng)然logistic回歸又區(qū)分為三類,分別是二元logistic回歸英融,有序logistic回歸盏檐,無序logistic回歸;區(qū)別在于如果Y僅分為兩類驶悟,比如愿意不愿意胡野,購買不購買,喜歡不喜歡痕鳍,此時(shí)Y只有2個(gè)類別則叫做二元logistic回歸硫豆,此方法的使用頻率非常高。比如Y分為三組分別是不喜歡笼呆,喜歡和喜歡熊响,此時(shí)使用有序logistic回歸(其實(shí)使用線性回歸也是可以的,只是我們這里把Y當(dāng)成是定類數(shù)據(jù)所以使用有序logistic回歸而已)诗赌;無序logistic回歸時(shí)汗茄,Y一定是絕對(duì)的定性數(shù)據(jù),比如出行方式的偏好(自行車铭若,公共汽車洪碳,地鐵,自駕)叼屠,此時(shí)用無序logistic回歸即可瞳腌。
第三類為其它關(guān)系
實(shí)際情況中還會(huì)有比如數(shù)據(jù)的濃縮,樣本的聚類等研究镜雨。
· 數(shù)據(jù)濃縮:比如說了20句話嫂侍,是否可以把20句話概括歸納成4個(gè)詞語表示呢?此時(shí)就應(yīng)該用到數(shù)據(jù)濃縮荚坞,即使用因子分析(也或者主成分分析)挑宠;以及記住,數(shù)據(jù)濃縮時(shí)西剥,數(shù)據(jù)一定是定量數(shù)據(jù)痹栖。
· 樣本聚類:比如游戲里面分了幾種角色,游戲數(shù)據(jù)分析人員希望對(duì)收集到了1萬個(gè)樣本分成幾類瞭空,便于進(jìn)行游戲里面的角色定位揪阿。此時(shí)則需要使用聚類分析疗我。
上述的方法選擇,分別與數(shù)據(jù)關(guān)系南捂,或者數(shù)據(jù)類型間的關(guān)聯(lián)性思路吴裤。事實(shí)上與網(wǎng)頁在線版本的SPSSAU(www.spssau.com),完全如出一轍溺健。spssau即是使用這樣的思路進(jìn)行產(chǎn)品設(shè)計(jì)麦牺。確定好數(shù)據(jù)類型,理解了數(shù)據(jù)關(guān)系情況鞭缭,即可選擇出正確的數(shù)據(jù)研究方法剖膳。
如果已經(jīng)理解了數(shù)據(jù)類型,數(shù)據(jù)關(guān)系岭辣,并且選擇了正確的數(shù)據(jù)研究方法吱晒。最終無非是把數(shù)據(jù)研究方法得出的結(jié)論進(jìn)行匯總整理,然后寫成有邏輯性的報(bào)告沦童,并且在結(jié)論基礎(chǔ)上對(duì)應(yīng)提出有意義有價(jià)值的建議措施等仑濒。
關(guān)于數(shù)據(jù)報(bào)告的撰寫,單獨(dú)從數(shù)據(jù)分析角度上看偷遗,建議以實(shí)際需求出發(fā)墩瞳,比如研究差異關(guān)系,那么首先得需要知道有沒有差異氏豌,接著有了差異喉酌,具體差異情況如何。有了差異或者沒有差異時(shí)箩溃,對(duì)應(yīng)的建議措施應(yīng)該如何瞭吃。按照這樣的思路,相信數(shù)據(jù)研究報(bào)告的撰寫并非難事涣旨。
如果是對(duì)具體數(shù)據(jù)研究方法的結(jié)論撰寫有困難,可以直接使用spssau進(jìn)行分析股冗,直接參考里面的智能文字分析即可霹陡。以及需要特別注意在于,數(shù)據(jù)研究結(jié)論對(duì)應(yīng)有什么意義止状,價(jià)值在哪里烹棉,對(duì)實(shí)際商業(yè)的價(jià)值或者指導(dǎo)在哪里?這才是重點(diǎn)怯疤。