筆記內(nèi)容:
- CA(Correspondence Analysis)
- CA的R實(shí)現(xiàn)馆揉、作圖及解讀
- 與logistic regression的差別
CA(Correspondence Analysis)
如果沒(méi)有明確的假設(shè)业舍,研究目的為探究列聯(lián)表數(shù)據(jù)中行列兩種變量的關(guān)系,那么分析的結(jié)果需要給出兩個(gè)結(jié)論:兩種變量是否確實(shí)存在關(guān)聯(lián),以及是什么變量與什么變量存在關(guān)聯(lián)舷暮,其強(qiáng)度如何态罪。
首先需要進(jìn)行卡方檢驗(yàn)(the test of independence(chi-square test),驗(yàn)證行變量與列變量是相關(guān)的下面。
CA (Correspondence Analysis)為PCA的一種延伸复颈,適用于探究分類變量之間的關(guān)系。它同樣提供了二維plot, 將變量之間的關(guān)系總結(jié)并可視化沥割。其input為二維的contingency table(2 * 2, r * c)耗啦,目的為探究行列的變量是否存在關(guān)聯(lián)。
CA的R實(shí)現(xiàn)机杜、作圖及解讀
使用factoextra
帜讲,fviz_ca_biplot
包可以繪制symmetric plot(French plot), 將行列變量均Plot在同一個(gè)圖中。用于對(duì)行列變量的相關(guān)程度有一個(gè)宏觀的了解:行變量(列變量)兩點(diǎn)距離越近椒拗,代表其相似程度越高似将。但是其只能解釋行變量(或列變量)之間的相似程度,不能直接解釋行列變量之間的距離蚀苛。如下圖所示:
使用fviz_ca_biplot(arrows= ..)
繪制Asymmetric biplot, 將行列各點(diǎn)與原點(diǎn)的連線作為向量玩郊。行列兩向量之間的夾角越小,代表這兩個(gè)變量關(guān)聯(lián)程度越大枉阵,如下圖所示:
詳細(xì)可見(jiàn)這個(gè)例子
以及一些參考資料: Correspondence analysis (CA)
與Logistic regression的關(guān)系
處理分類型變量最常用的是logistic regression,但并不意味著不管拿來(lái)什么數(shù)據(jù)都往regression里塞预茄。如下表所示兴溜,CA與Logistic regression有適用范圍。
但是用"independent Variable & dependent Variable" 來(lái)形容待分析的變量并不嚴(yán)謹(jǐn)耻陕。在一些情況下有明確的假設(shè)拙徽,研究目的為探究自變量對(duì)因變量的影響程度,或者預(yù)測(cè)因變量的變化诗宣。也存在一些情況膘怕,并沒(méi)有明確的假設(shè),不能把兩類變量簡(jiǎn)單歸為自變量與因變量召庞。研究目的為探究?jī)深愖兞勘容^宏觀的關(guān)聯(lián)程度岛心。可以參考這篇文獻(xiàn)篮灼。