?正確的數據格式是進行數據分析的基礎琉预,最近SPSSAU后臺收到了很多小伙伴的提問——什么樣的數據格式才能進行分析玉罐?某某方法的數據格式應該是怎樣的因惭?為什么我上傳數據后沒有顯示岳锁?針對小伙伴們有關數據格式的提問,今天將論文寫作各個模塊中蹦魔,具有代表性的分析方法的數據格式進行一個匯總說明激率,幫助大家更好的完成數據整理和分析工作。
接下來從以上提到的九個方面進行介紹勿决。
一乒躺、規(guī)范格式說明
1、原始數據格式
我們在進行數據分析時低缩,最常見的數據格式是原始數據格式嘉冒。
下圖是一份常見的原始數據,它的特點是:一行代表一個樣本咆繁,一列代表一個屬性(變量)讳推。
原始數據格式的特點:調查有多少樣本,就需要錄入多少行數據玩般;如果調查了500個樣本银觅,那么就需要錄入500行數據。每一行代表每個樣本收集的所有數據坏为,每一列代表每個屬性(變量)的所有數據究驴。
絕大多數分析方法都是使用原始數據格式上傳分析的,例如30多種回歸模型匀伏、主成分分析洒忧、因子分析、聚類分析等够颠。
2熙侍、加權數據格式
除原始數據格式外,還有一些分析方法還會使用到加權數據格式摧找,在醫(yī)學/實驗研究中核行,很多時候只有匯總數據,即帶加權項的數據蹬耘,如卡方檢驗等。下圖為卡方檢驗的加權數據减余,加權數據格式的特點是:基本只針對全部為定類數據的研究時使用综苔,且只提供匯總數據,不提供原始數據。
在進行數據分析時如筛,單單掌握原始數據格式和加權數據格式還是不夠的堡牡,因為每一種分析方法對應的數據類型與數據格式都不盡相同,只有將數據整理成分析方法要求的格式才能正常使用軟件進行對應的分析杨刨,從而得到正確的分析結果晤柄。
接下來從幾個方面介紹一些典型的分析方法的數據格式。
二妖胀、差異性分析方法數據格式
畢業(yè)論文常用的差異性分析方法有方差分析芥颈、t檢驗、卡方檢驗赚抡,一些代表性分析方法數據格式如下說明爬坑。
1、方差分析涂臣、t檢驗
方差分析和t檢驗都是常見研究不同組別之間差異性的方法盾计,比如不同學歷時收入的差異。那么數據中就一定要包括不同組別X(如學歷)和分析項Y(如收入)赁遗。
有時候只有分析項(比如3個分析項)署辉,但是現在希望對比這3個分析項的差異,那么就需要對數據進行改造岩四,自己加入一列‘組別’涨薪,然后把數據重疊起來得到分析項Y,類似如下圖:
提示:方差分析(單因素方差)與t檢驗的區(qū)別在于t檢驗只能對比兩類數據之間的差異炫乓,而方差分析可對比多組數據之間的差異刚夺,但二者數據格式類似。
2末捣、卡方檢驗
卡方檢驗用于研究X與Y之間的差異性侠姑,并且X與Y均為定類數據。使用SPSSAU中的卡方檢驗進行研究時,支持常規(guī)數據格式和加權數據格式兩種形式。常規(guī)數據格式適用于原始數據哪怔,加權數據格式適用于只有匯總數據的情況粥血。
加權數據格式說明如下:比如下圖中X有2種情況,Y有3個情況义起,一種有2*3=6種組合,數據信息只有6種組別的匯總項(即加權項),分別是40鬼店,10,20黔龟,30妇智,20滥玷,50;相當于總共有170個樣本巍棱。整理為加權格式即只需要錄入6行即可惑畴。
除了卡方檢驗外,還有一些方法支持加權數據格式航徙,如下:
-
【可視化】詞云
-
【問卷研究】對應分析
-
【實驗/醫(yī)學研究】卡方檢驗
-
【實驗/醫(yī)學研究】Kappa
-
【實驗/醫(yī)學研究】配對卡方
-
【實驗/醫(yī)學研究】Poisson回歸
-
【實驗/醫(yī)學研究】Ridit分析
-
【實驗/醫(yī)學研究】卡方擬合優(yōu)度
-
【實驗/醫(yī)學研究】Poisson檢驗
3如贷、配對t檢驗
配對數據的格式比較特殊,例如研究實驗組與對照組之間的差異到踏,常見的配對數據研究方法比如配對樣本t檢驗杠袱、配對卡方、配對樣本Wilcoxon檢驗等夭禽。數據格式如下圖:
配對數據一般是在實驗時使用霞掺,而且配對數據的特點為:行數一定完全相等并且只有兩列。
如果研究數據的行數不相等讹躯,那可能不是配對數據菩彬,如果還想對比差異,可能需要使用獨立t 檢驗潮梯。
4骗灶、重復測量方差
重復測量數據是指同一批樣本(病例)在不同的時間點測量了多次數據,因此重復測量數據的特殊之處在于一定會有ID號(即樣本或者病例號)秉馏,以及時間點數據耙旦。
如下圖:同一個ID會有多個時間點的數據,比如下面有12個樣本(12個ID號)萝究,并且測量5個時間點免都。那么就一定會有12*5=60行數據。同一個ID號會重復5次帆竹,同一個時間點會重復12次绕娘。
三、影響關系分析方法數據格式
影響關系研究時栽连,最常用的方法就是各類回歸分析险领。絕大多數回歸分析的數據格式都是原始數據格式(即一列代表一個指標,一行代表一個樣本)秒紧,但也有些比較特殊的绢陌。
1、多元線性回歸
多元線性回歸分析用于研究自變量X對因變量Y的影響關系情況熔恢,通常自變量個數不止一個脐湾,數據格式如下:
2、條件logit回歸
條件logit(logistic)回歸時绩聘,配對編號ID用于標識ID沥割,而且是配對耗啦,因此一個ID會出現多次凿菩,比如1:1配對机杜,那么1個ID就會出現2次(1:2配對時,1個ID就會出現3次)衅谷;因變量Y一定只能包括數字0和1椒拗,類似數據格式如下圖:
3、面板模型
面板模型是針對面板數據進行分析获黔,面板數據是一種特殊的數據格式蚀苛。比如當前研究100家公司5年的財務數據。100家公司玷氏,每家5年堵未,最終會有100*5=500行數據。
使用SPSSAU進行分析時盏触,‘個體ID’就是下圖中的‘公司編號’渗蟹,‘時間’就是下圖中的‘年份’≡薇纾‘公司編號’一般是指上市公司的股票代碼雌芽,也或者只是個編號均可;‘年份’一般是指年或者時間點辨嗽∈缆洌‘公司編號’和‘年份’兩項共同用于告訴系統(tǒng)當前為面板數據,通常無其它意義糟需。
4屉佳、Cox回歸
Cox回歸生存分析時,因變量包括兩項洲押,分別是Y1生成時間和Y2生存狀態(tài)武花,Y2生存狀態(tài)一定只能包括2個數字分別是0和1,至于X或分層項的數據特征不固定诅诱,分層項在分析時為可選髓堪,沒有也沒關系,類似數據格式如下圖:
四娘荡、問卷題數據格式
問卷的數據格式比較特殊干旁,如果是通過問卷星/問卷網/騰訊問卷在網上收集的問卷,可以直接下載CSV格式或者SPSS格式炮沐,下載后直接上傳到SPSSAU系統(tǒng)進行分析争群。具體網上問卷下載以及上傳方法可以參考幫助手冊說明:SPSSAU上傳數據
下面對線下收集的紙質問卷需要整理的數據格式進行說明,包括常見的單選大年、多選换薄、量表題的數據格式玉雾。
1、單選題
單選題一列代表一個指標轻要,一行代表一個樣本复旬,數字代表被選項。例如下圖樣本1代表性別為選項2(女士)冲泥,年齡為選項4(41-50歲)驹碍。
如何上傳帶‘數據標簽’的數據文檔?如果說希望上傳數據的時候直接上傳數據標簽,而不是通過“數據處理->數據標簽”單獨設置凡恍。那么可以在上傳的EXCEL工作里面包括兩個工作表名稱志秃,第1個是‘data’,第2個是‘tags’嚼酝「』梗‘data’里面放數據,‘tags’里面放置標簽闽巩,標簽的格式說明如下圖示:一共包括ABC共3列钧舌,分別是‘標題’、‘數字’和‘標簽’:
2又官、多選題
在問卷研究時會使用到多選題延刘,多選題的數據格式比較特殊,一列代表一個多選題的選項六敬。比如一個多選題有4個選項碘赖,那么其數據中就會有4列,分別代表4個選項外构。而且使用數字1表示選中普泡,數字0表示沒有選中。如下圖:
3审编、量表題
量表題與單選題類似撼班,如下圖:
五、降維方法數據格式
常用的數據降維方法(信息濃縮)主要是因子分析和主成分分析垒酬。
因子分析&主成分分析
因子分析和主成分分析時砰嘁,一列標識1個指標,一行為1個樣本勘究;如果為面板數據矮湘,比如100家公司每家公司10年,那么就會有100*10=1000個樣本口糕,可能需要單獨兩列分別是公司名和年份來標識面板格式而已缅阳,但因子分析與主成分分析并不區(qū)分是否面板數據,只針對指標進行分析即可景描,另一般分析樣本量需要超出分析項(指標)的5倍十办,類似數據格式如下圖:
如果為面板數據秀撇,比如100家公司每家公司10年,那么就會有100*10=1000個樣本向族,可能需要單獨兩列分別是公司名和年份來標識面板格式而已呵燕,但因子分析和主成分分析并不區(qū)分是否面板數據,只針對指標進行分析即可炸枣。
六虏等、綜合評價方法數據格式
畢業(yè)論文寫作進行綜合評價時通常包括兩大方面:權重計算和綜合評價弄唧。權重計算最常用方法有AHP層次分析法适肠、熵值法;綜合評價常用方法有模糊綜合評價候引、灰色關聯(lián)法侯养、TOPSIS法和熵權TOPSIS法。分別進行說明澄干。
1逛揩、AHP層次分析法
AHP層次分析法的數據格式(即判斷矩陣)最為特殊,如下圖麸俘,研究人員可修改指標項名稱辩稽,以及白色單元格內的數字即可。判斷矩陣是
‘ 下三角 ’ 完全對稱矩陣从媚,因此
‘ 白色 ’?底紋處的信息變化時逞泄,
‘ 藍色 ’ 背景的信息會自動變化。
2拜效、熵值法
熵值法用于指標的權重情況喷众。1個指標占用1列數據。下圖中樣本編號只是個編號無實際意義紧憾,用于標識下樣本的ID號到千,一般是比如年份一類的數據信息,分析時并不需要使用赴穗。
如果是面板數據希望進行熵值法憔四,其數據格式如下圖所示,比如有100家公司分別5年的指標數據般眉,那么一共就有100*5=500行數據了赵。數據格式上需要如此,但在分析時只需要放入‘指標列’數據即可煤篙。
3斟览、模糊綜合評價
模糊綜合評價是對具有多種屬性的事物,綜合各因素作出一個總體評價辑奈。上傳的數據一般包括三個部分:指標項苛茂、指標項權重已烤、評價項,數據格式如下圖:
指標項權重:如果說各個指標項有著自己的權重,那么就需要單獨用一列表示
‘ 指標項權重值’
躁绸,如果沒有此數據裕循,則默認各個指標的權重完全一致。
評價項:是指類似于{優(yōu)秀净刮,良好剥哑,一般,差} 或{非常滿意淹父,滿意株婴,一般,不滿意暑认,非常不滿意}這樣的評價標準困介,1列放1個評價項。
4蘸际、灰色關聯(lián)法
灰色關聯(lián)法研究數據之間的關聯(lián)程度座哩,即特征序列與母序列的關聯(lián)性情況。母序列單獨使用一列標識粮彤,每個特征序列都使用1列標識根穷。下圖中樣本編號只是個編號無實際意義,用于標識下樣本的ID號驾诈,一般是比如年份一類的數據信息缠诅,分析時并不需要使用。
5乍迄、TOPSIS法&熵權TOPSIS法
TOPSIS法和熵權TOPSIS法用于研究指標與理想解的接近度情況管引。1個指標占用1列數據,1個研究對象為1行闯两,但研究對象在分析時并不需要使用褥伴,SPSSAU默認會從上到下依次編號。
七漾狼、預測方法數據格式
1重慢、灰色預測模型
灰色預測GM(1,1)模型通常針對數量非常少的樣本進行預測,如果數據帶有時間項逊躁,其并不納入分析項中似踱,但自己整理數據時一般需要將數據依次按時間排序好,然后錄入數據,類似數據格式如下圖:
2核芽、ARIMA模型&指數平滑法
ARIMA模型和指數平滑法是針對時間序列數據進行研究囚戚,時間序列的格式包括時間和實際分析項共兩列。比如下圖中年份就是時間項轧简,“阿里雙十一銷售額(億元)”就是實際分析項驰坊。
3、馬爾科夫預測
如果是馬爾可夫預測哮独,通常包括兩個數據拳芙,分別是‘初始概率值’和‘狀態(tài)轉移矩陣’∑よ担‘初始概率值’放在A列中舟扎。‘狀態(tài)轉移矩陣’是n*n矩陣格式恶导,其從B列開始放入浆竭,并且B1這個單元格一定是空著的。類似如下圖所示:
八惨寿、一致性檢驗方法數據格式
一致性檢驗用于判斷不同的模型或者分析方法在產出結果上是否具有一致性、模型的結果與實際結果是否具有一致性等删窒。常用方法有Kappa一致性檢驗裂垦、ICC組內相關系數、Bland-Altman圖等肌索。
1蕉拢、Kappa一致性檢驗
Kappa一致性檢驗數據格式上,SPSSAU支持‘加權’和‘不加權’兩種格式诚亚。如果是‘加權’格式如下圖:A列和B列分別代表2個措施(醫(yī)生)晕换,單獨用一列標識對應醫(yī)生診斷的病例數量≌咀冢‘加權’格式時闸准,一定需要把權重加權項放入對應的框中才可以。如果是‘不加權’格式梢灭,那么沒有權重列夷家。只需要兩列原始數據即可。
2敏释、ICC組內相關系數
ICC組內相關系數通晨饪欤可用于重測信度分析等,比如有3個醫(yī)生對于5個病人的智商打分一致性钥顽。那么需要有3個醫(yī)生的數據义屏,1個醫(yī)生為1列即可,其格式類似于配對數據,如下圖所示:
3闽铐、Bland-Altman圖
例如當前有醫(yī)生使用兩種方法分別做一項實驗膀曾,現需要對第1種和第2種方法共兩種方法的測量數據進行一致性檢驗;如果有分組數據阳啥,例如研究不同性別添谊,此時只需要把性別group放入對應框中即可,數據格式如下:
九察迟、現狀政策類方法數據格式
1斩狱、DID雙重差分法
如果是進行雙重差分DID分析,那么Treated地區(qū)(0代表A類地區(qū)即控制組扎瓶,1代表B類地區(qū)即實驗組)和time政策實施前后(0代表實施前, 1代表實施后))數據只能包括數字0或者1所踊,并且有對應的被解釋變量Y,至于控制變量可有可無概荷,由實際研究情況而定秕岛。
如果是多期DID數據,treated只能為數字0或1误证,數字0標識‘控制組’继薛,數字1標識‘實驗組’;time只能為數字0或1愈捅,數字0標識‘before’(實驗前)遏考,數字1標識‘after(實驗后)。Treate*time即為交互項蓝谨,可使用SPSSAU數據處理->生成變量->乘積得到灌具,格式類似如下圖:
2、傾向得分匹配
傾向得分匹配時譬巫,研究變量一定只能包括數字0和1咖楣,特征項的數據特征并無特別要求,類似數據格式如下圖:
除以上分析方法外芦昔,還有下面這些分析方法的數據格式也需要注意:
以上分析方法可以在SPSSAU常見研究方法數據格式說明的幫助手冊進行查詢