正確的數(shù)據(jù)格式是進行數(shù)據(jù)分析的基礎(chǔ)饭于,最近SPSSAU后臺收到了很多小伙伴有關(guān)上傳數(shù)據(jù)格式的提問——
正確的數(shù)據(jù)格式是怎樣的?
特定方法所需的數(shù)據(jù)格式是怎樣的?
如何上傳帶數(shù)據(jù)標簽的數(shù)據(jù)菱属?
為什么數(shù)據(jù)上傳后與預(yù)期不一致無法正常顯示恋捆?——多數(shù)由于存在合并單元格
為什么上傳提示“無有效數(shù)據(jù)”照皆?——多數(shù)由于數(shù)據(jù)未放在sheet1中
為解答這些普遍存在的困惑沸停,本文將對數(shù)據(jù)分析常用方法中具有代表性的分析方法所需的數(shù)據(jù)格式進行系統(tǒng)梳理和詳細說明昭卓,幫助研究者更有效地開展數(shù)據(jù)分析工作愤钾。
下面本文將分模塊介紹以下30+常用方法數(shù)據(jù)格式候醒,大家可以先收藏,等后續(xù)分析要用到哪種方法再來對照查看該方法的數(shù)據(jù)格式即可倒淫。
一镜硕、規(guī)范格式說明
1、原始數(shù)據(jù)格式
我們在進行數(shù)據(jù)分析時悠夯,最常見的數(shù)據(jù)格式是原始數(shù)據(jù)格式躺坟。
下圖是一份常見的原始數(shù)據(jù)沦补,它的特點是:一行代表一個樣本,一列代表一個變量咪橙。調(diào)查有多少樣本夕膀,就需要錄入多少行數(shù)據(jù);如果調(diào)查了500個樣本匣摘,那么就需要錄入500行數(shù)據(jù)店诗。每一行代表每個樣本收集的所有數(shù)據(jù),每一列代表每個變量的所有數(shù)據(jù)音榜。
絕大多數(shù)分析方法都是使用原始數(shù)據(jù)格式上傳分析的庞瘸,例如SPSSAU中計量經(jīng)濟研究模塊、機器學(xué)習(xí)模塊赠叼、空間計量模塊中的絕大多數(shù)方法都是上傳原始數(shù)據(jù)格式即可擦囊。
2、加權(quán)數(shù)據(jù)格式
除原始數(shù)據(jù)格式外嘴办,還有一些分析方法還會使用到加權(quán)數(shù)據(jù)格式瞬场,在醫(yī)學(xué)/實驗研究中,很多時候只有匯總數(shù)據(jù)涧郊,即帶加權(quán)項的數(shù)據(jù)贯被,如卡方檢驗等。下圖為卡方檢驗的加權(quán)數(shù)據(jù)妆艘,加權(quán)數(shù)據(jù)格式的特點是:基本只針對全部為定類數(shù)據(jù)的研究時使用彤灶,且只提供匯總數(shù)據(jù),不提供原始數(shù)據(jù)批旺。
上傳提示“無有效數(shù)據(jù)”或上傳數(shù)據(jù)與預(yù)期不一致怎么辦幌陕?
如果提示無有效數(shù)據(jù)等,請按以下幾步檢查汽煮。
第一:如果EXCEL上傳搏熄,數(shù)據(jù)應(yīng)該放在第一個工作表里面,如果不是請調(diào)整后再上傳暇赤。
第二:EXCEL數(shù)據(jù)中不能合并單元格心例,如果有合并單元格,請取消合并翎卓。
第三:數(shù)據(jù)第1行一定是標題契邀,如果本該有標題但是為空,請?zhí)幚砗笤偕蟼鳌?/p>
3失暴、帶數(shù)據(jù)標簽的數(shù)據(jù)格式
如何上傳帶‘數(shù)據(jù)標簽’的數(shù)據(jù)文檔?如果說希望上傳數(shù)據(jù)的時候直接上傳數(shù)據(jù)標簽坯门,而不是通過“數(shù)據(jù)處理->數(shù)據(jù)標簽”單獨設(shè)置微饥。那么可以在上傳的EXCEL工作里面包括兩個工作表名稱,第1個是‘data’古戴,第2個是‘tags’欠橘。‘data’里面放數(shù)據(jù)现恼,‘tags’里面放置標簽肃续,標簽的格式說明如下說明和圖示:
一共包括ABC共3列,分別是‘標題’叉袍、‘數(shù)字’和‘標簽’始锚;
‘標題’列放置標題,標題僅在第一次出現(xiàn)時才會顯示喳逛,而且不能有完全相同一模一樣的標題瞧捌,否則可能會出現(xiàn)解析會出錯;
‘數(shù)字列’放置數(shù)字润文;‘標簽列’放置對應(yīng)數(shù)字的標簽信息姐呐;
進行數(shù)據(jù)分析時,單單掌握原始數(shù)據(jù)格式和加權(quán)數(shù)據(jù)格式還是不夠的典蝌,接下來從數(shù)據(jù)分析幾大模塊分別介紹一些典型的分析方法的數(shù)據(jù)格式曙砂。
二、差異性分析方法
數(shù)據(jù)分析常用的差異性分析方法有方差分析骏掀、t檢驗鸠澈、卡方檢驗,數(shù)據(jù)格式如下說明截驮。
1款侵、方差分析、t檢驗
方差分析和t檢驗都是常見研究不同組別之間差異性的方法侧纯,比如不同學(xué)歷時收入的差異。那么數(shù)據(jù)中就一定要包括不同組別X(如學(xué)歷)和分析項Y(如收入)甲脏。
有時候只有分析項(比如3個分析項)眶熬,但是現(xiàn)在希望對比這3個分析項的差異,那么就需要對數(shù)據(jù)進行改造块请,自己加入一列‘組別’娜氏,然后把數(shù)據(jù)重疊起來得到分析項Y,類似如下圖:
提示:方差分析(單因素方差)與t檢驗的區(qū)別在于t檢驗只能對比兩類數(shù)據(jù)之間的差異墩新,而方差分析可對比多組數(shù)據(jù)之間的差異贸弥,但二者數(shù)據(jù)格式類似。
2海渊、卡方檢驗
卡方檢驗用于研究X與Y之間的差異性绵疲,并且X與Y均為定類數(shù)據(jù)哲鸳。使用SPSSAU中的卡方檢驗進行研究時,支持常規(guī)數(shù)據(jù)格式和加權(quán)數(shù)據(jù)格式兩種形式盔憨。常規(guī)數(shù)據(jù)格式適用于原始數(shù)據(jù)徙菠,加權(quán)數(shù)據(jù)格式適用于只有匯總數(shù)據(jù)的情況。
加權(quán)數(shù)據(jù)格式說明如下:比如下圖中X有2種情況郁岩,Y有3個情況婿奔,一種有2*3=6種組合,數(shù)據(jù)信息只有6種組別的匯總項(即加權(quán)項)问慎,分別是40萍摊,10,20如叼,30冰木,20,50薇正;相當于總共有170個樣本片酝。整理為加權(quán)格式即只需要錄入6行即可。
除了卡方檢驗外挖腰,還有一些方法支持加權(quán)數(shù)據(jù)格式雕沿,如下:
- 【可視化】詞云
-
【問卷研究】對應(yīng)分析
-
【實驗/醫(yī)學(xué)研究】卡方檢驗
-
【實驗/醫(yī)學(xué)研究】Kappa
-
【實驗/醫(yī)學(xué)研究】配對卡方
-
【實驗/醫(yī)學(xué)研究】Poisson回歸
-
【實驗/醫(yī)學(xué)研究】Ridit分析
-
【實驗/醫(yī)學(xué)研究】卡方擬合優(yōu)度
-
【實驗/醫(yī)學(xué)研究】Poisson檢驗
3、配對t檢驗
配對數(shù)據(jù)的格式比較特殊猴仑,例如研究實驗組與對照組之間的差異审轮,常見的配對數(shù)據(jù)研究方法比如配對樣本t檢驗、配對卡方辽俗、配對樣本Wilcoxon檢驗等疾渣。數(shù)據(jù)格式如下圖:
配對數(shù)據(jù)一般是在實驗時使用,而且配對數(shù)據(jù)的特點為:行數(shù)一定完全相等并且只有兩列崖飘。
如果研究數(shù)據(jù)的行數(shù)不相等榴捡,那可能不是配對數(shù)據(jù),如果還想對比差異朱浴,可能需要使用獨立t 檢驗吊圾。
4、重復(fù)測量方差
重復(fù)測量數(shù)據(jù)是指同一批樣本(病例)在不同的時間點測量了多次數(shù)據(jù)翰蠢,因此重復(fù)測量數(shù)據(jù)的特殊之處在于一定會有ID號(即樣本或者病例號)项乒,以及時間點數(shù)據(jù)。
如下圖:同一個ID會有多個時間點的數(shù)據(jù)梁沧,比如下面有12個樣本(12個ID號)檀何,并且測量5個時間點。那么就一定會有12*5=60行數(shù)據(jù)。同一個ID號會重復(fù)5次频鉴,同一個時間點會重復(fù)12次栓辜。
三、影響關(guān)系分析方法
影響關(guān)系研究時砚殿,最常用的方法就是各類回歸分析啃憎。絕大多數(shù)回歸分析的數(shù)據(jù)格式都是原始數(shù)據(jù)格式(即一列代表一個指標,一行代表一個樣本)似炎,但也有些比較特殊的辛萍。
1、多元線性回歸
多元線性回歸分析用于研究自變量X對因變量Y的影響關(guān)系情況羡藐,通常自變量個數(shù)不止一個贩毕,數(shù)據(jù)格式如下:
2、條件logit回歸
條件logit回歸時仆嗦,配對編號ID用于標識ID辉阶,而且是配對,因此一個ID會出現(xiàn)多次瘩扼,比如1:1配對谆甜,那么1個ID就會出現(xiàn)2次(1:2配對時,1個ID就會出現(xiàn)3次)集绰;因變量Y一定只能包括數(shù)字0和1规辱,類似數(shù)據(jù)格式如下圖:
3、面板模型
面板模型是針對面板數(shù)據(jù)進行分析栽燕,面板數(shù)據(jù)是一種特殊的數(shù)據(jù)格式罕袋。比如當前研究100家公司5年的財務(wù)數(shù)據(jù)。100家公司碍岔,每家5年浴讯,最終會有100*5=500行數(shù)據(jù)。
使用SPSSAU進行分析時蔼啦,‘個體ID’就是下圖中的‘公司編號’榆纽,‘時間’就是下圖中的‘年份’∧笾‘公司編號’一般是指上市公司的股票代碼掠河,也或者只是個編號均可;‘年份’一般是指年或者時間點猛计。‘公司編號’和‘年份’兩項共同用于告訴系統(tǒng)當前為面板數(shù)據(jù)爆捞,通常無其它意義奉瘤。
4、Cox回歸
Cox回歸生存分析時,因變量包括兩項盗温,分別是Y1生成時間和Y2生存狀態(tài)藕赞,Y2生存狀態(tài)一定只能包括2個數(shù)字分別是0和1,至于X或分層項的數(shù)據(jù)特征不固定卖局,分層項在分析時為可選斧蜕,沒有也沒關(guān)系,類似數(shù)據(jù)格式如下圖:
四砚偶、問卷題數(shù)據(jù)格式
問卷的數(shù)據(jù)格式比較特殊批销,如果是通過問卷星/問卷網(wǎng)/騰訊問卷在網(wǎng)上收集的問卷,可以直接下載CSV格式或者SPSS格式染坯,下載后直接上傳到SPSSAU系統(tǒng)進行分析均芽。具體網(wǎng)上問卷下載以及上傳方法可以參考幫助手冊說明:SPSSAU上傳數(shù)據(jù)
下面對線下收集的紙質(zhì)問卷需要整理的數(shù)據(jù)格式進行說明,包括常見的單選单鹿、多選掀宋、量表題的數(shù)據(jù)格式。
1仲锄、單選題
單選題一列代表一個指標劲妙,一行代表一個樣本,數(shù)字代表被選項儒喊。例如下圖樣本1代表性別為選項2(女士)镣奋,年齡為選項4(41-50歲)。
2澄惊、多選題
問卷研究時會使用到多選題唆途,多選題的數(shù)據(jù)格式比較特殊,一列代表一個多選題的選項掸驱。比如一個多選題有4個選項肛搬,那么其數(shù)據(jù)中就會有4列,分別代表4個選項毕贼。而且使用數(shù)字1表示選中温赔,數(shù)字0表示沒有選中。如下圖:
3鬼癣、量表題
量表題與單選題類似陶贼,如下圖:
五、綜合評價方法
綜合評價時通常包括兩大方面:權(quán)重計算和綜合評價待秃。權(quán)重計算最常用方法有AHP層次分析法拜秧、熵值法;綜合評價常用方法有模糊綜合評價章郁、灰色關(guān)聯(lián)法枉氮、TOPSIS法和熵權(quán)TOPSIS法志衍。分別進行說明。
1聊替、AHP層次分析法
AHP層次分析法的數(shù)據(jù)格式(即判斷矩陣)最為特殊楼肪,如下圖,研究人員可修改指標項名稱惹悄,以及白色單元格內(nèi)的數(shù)字即可春叫。判斷矩陣是 ‘ 下三角 ’ 完全對稱矩陣,因此 ‘ 白色 ’?底紋處的信息變化時泣港, ‘ 藍色 ’ 背景的信息會自動變化暂殖。
2、熵值法
熵值法用于指標的權(quán)重情況爷速。1個指標占用1列數(shù)據(jù)央星。下圖中樣本編號只是個編號無實際意義,用于標識下樣本的ID號惫东,一般是比如年份一類的數(shù)據(jù)信息莉给,分析時并不需要使用。
如果是面板數(shù)據(jù)希望進行熵值法廉沮,其數(shù)據(jù)格式如下圖所示颓遏,比如有100家公司分別5年的指標數(shù)據(jù),那么一共就有100*5=500行數(shù)據(jù)滞时。數(shù)據(jù)格式上需要如此叁幢,但在分析時只需要放入‘指標列’數(shù)據(jù)即可。
3坪稽、模糊綜合評價
模糊綜合評價是對具有多種屬性的事物曼玩,綜合各因素作出一個總體評價。上傳的數(shù)據(jù)一般包括三個部分:指標項窒百、指標項權(quán)重黍判、評價項,數(shù)據(jù)格式如下圖:
-
指標項:為參與評價的考核指標,1行放1個。
-
指標項權(quán)重:如果說各個指標項有著自己的權(quán)重穴豫,那么就需要單獨用一列表示 ‘ 指標項權(quán)重值’ ,如果沒有此數(shù)據(jù)贬墩,則默認各個指標的權(quán)重完全一致。
-
評價項:是指類似于{優(yōu)秀妄呕,良好陶舞,一般,差} 或{非常滿意绪励,滿意论咏,一般颁井,不滿意蠢护,非常不滿意}這樣的評價標準雅宾,1列放1個評價項葵硕。
4、灰色關(guān)聯(lián)法
灰色關(guān)聯(lián)法研究數(shù)據(jù)之間的關(guān)聯(lián)程度懈凹,即特征序列與母序列的關(guān)聯(lián)性情況蜀变。母序列單獨使用一列標識介评,每個特征序列都使用1列標識。下圖中樣本編號只是個編號無實際意義们陆,用于標識下樣本的ID號坪仇,一般是比如年份一類的數(shù)據(jù)信息,分析時并不需要使用椅文。
5皆刺、TOPSIS法&熵權(quán)TOPSIS法
TOPSIS法和熵權(quán)TOPSIS法用于研究指標與理想解的接近度情況。1個指標占用1列數(shù)據(jù)毒坛,1個研究對象為1行林说,但研究對象在分析時并不需要使用腿箩,SPSSAU默認會從上到下依次編號。
六弓乙、一致性檢驗方法
一致性檢驗用于判斷不同的模型或者分析方法在產(chǎn)出結(jié)果上是否具有一致性、模型的結(jié)果與實際結(jié)果是否具有一致性等勾习。常用方法有Kappa一致性檢驗懈玻、ICC組內(nèi)相關(guān)系數(shù)涂乌、Bland-Altman圖等。
1湾盒、Kappa一致性檢驗
Kappa一致性檢驗數(shù)據(jù)格式上罚勾,SPSSAU支持‘加權(quán)’和‘不加權(quán)’兩種格式。如果是‘加權(quán)’格式如下圖:A列和B列分別代表2個措施(醫(yī)生)堰塌,單獨用一列標識對應(yīng)醫(yī)生診斷的病例數(shù)量分衫。‘加權(quán)’格式時牵现,一定需要把權(quán)重加權(quán)項放入對應(yīng)的框中才可以邀桑。如果是‘不加權(quán)’格式,那么沒有權(quán)重列贼急。只需要兩列原始數(shù)據(jù)即可捏萍。
2令杈、ICC組內(nèi)相關(guān)系數(shù)
ICC組內(nèi)相關(guān)系數(shù)通常可用于重測信度分析等掉丽,比如有3個醫(yī)生對于5個病人的智商打分一致性跌榔。那么需要有3個醫(yī)生的數(shù)據(jù)捶障,1個醫(yī)生為1列即可,其格式類似于配對數(shù)據(jù)皆辽,如下圖所示:
3、Bland-Altman圖
例如當前有醫(yī)生使用兩種方法分別做一項實驗耻台,現(xiàn)需要對第1種和第2種方法共兩種方法的測量數(shù)據(jù)進行一致性檢驗盆耽;如果有分組數(shù)據(jù),例如研究不同性別坝咐,此時只需要把性別group放入對應(yīng)框中即可析恢,數(shù)據(jù)格式如下:
七映挂、現(xiàn)狀政策類方法
現(xiàn)狀政策類分析主要用于分析政策實施的效果和影響柑船,旨在評估特定政策或干預(yù)措施對目標群體或現(xiàn)象的實際作用,常用方法如DID雙重差分法亏拉、傾向得分匹配法等逆巍。
1蒸苇、DID雙重差分法
如果是進行雙重差分DID分析,那么Treated地區(qū)(0代表A類地區(qū)即控制組味咳,1代表B類地區(qū)即實驗組)和time政策實施前后(0代表實施前, 1代表實施后))數(shù)據(jù)只能包括數(shù)字0或者1,并且有對應(yīng)的被解釋變量Y责嚷,至于控制變量可有可無掂铐,由實際研究情況而定全陨。
如果是多期DID數(shù)據(jù)辱姨,treated只能為數(shù)字0或1,數(shù)字0標識‘控制組’枢舶,數(shù)字1標識‘實驗組’替久;time只能為數(shù)字0或1蚯根,數(shù)字0標識‘before’(實驗前),數(shù)字1標識‘a(chǎn)fter(實驗后)吼具。Treate*time即為交互項矩距,可使用SPSSAU數(shù)據(jù)處理->生成變量->乘積得到锥债,格式類似如下圖:
2、傾向得分匹配
傾向得分匹配時登夫,研究變量一定只能包括數(shù)字0和1恼策,特征項的數(shù)據(jù)特征并無特別要求,類似數(shù)據(jù)格式如下圖:
3分唾、Dagum基尼系數(shù)
Dagum基尼系數(shù)是傳統(tǒng)基尼系數(shù)的升級绽乔,用于衡量和評估收入或財富分配的不平等程度碳褒。分析時一定需要有計算項(比如人均GDP)沙峻,至于group項和時間項可有可無,但通常二者均會有睹逃。Group項一般為地區(qū)祷肯,時間項一般為年份佑笋。Group項放入后會進行組間PK斑鼻,放入時間項時坚弱,會循環(huán)輸出不同時間項的計算結(jié)果。數(shù)據(jù)格式如下:
4碾阁、泰爾指數(shù)
泰爾指數(shù)是一種衡量‘不平均’的指數(shù)脂凶,比如用于衡量‘貧富差異’愁茁。如果是進行泰爾指數(shù)計算,通常會涉及group項嘶居,比如區(qū)域(華北邮屁、華南、華東葬项、西南迹蛤、東北)其層次最高盗飒,也或者區(qū)域的下一層次省份group(北京、天津蝶溶、河北宣渗、上海痕囱、浙江等),以及具體最小單位粒度城市鞍恢,及其對應(yīng)的GDP/人口信息數(shù)據(jù)等帮掉。一行代表一個最小粒度1個時間點(通常1年)的數(shù)據(jù)。類似結(jié)果如下圖:
八稽莉、文本分析
文本分析是針對文本數(shù)據(jù)進行研究和分析使用肩祥,SPSSAU文本分析包括詞云分析缩膝、文本情感分析疾层、文本聚類分析、社會網(wǎng)絡(luò)關(guān)系分析予弧、LDA主題分析等。
如果是通過excel格式(包括csv/xls/xlsx格式)時杀捻,只需要1列數(shù)據(jù)致讥,將文本全部放置于A列中器赞,A列不需要有標題信息港柜。每行(即每個單元格)存在1個分析文本。類似如下圖所示:
如果是txt文檔或者粘貼文本進行上傳爽锥,那么系統(tǒng)會自動過濾掉空行數(shù)據(jù)救恨,并且以回車鍵作為每行(即每個分析文本)標志释树。
以上即為今天常用方法數(shù)據(jù)格式的全部內(nèi)容奢啥,更多特殊分析方法的數(shù)據(jù)格式桩盲,可以在SPSSAU常見研究方法數(shù)據(jù)格式說明的幫助手冊進行查詢(幫助手冊頁面按 Ctrl+F 查詢)