應(yīng)粉絲要求,再給大家寫(xiě)一期潛在類(lèi)別分析的教程赏半,盡量寫(xiě)的詳細(xì)一點(diǎn)哆档。
首先蔽挠,問(wèn)題導(dǎo)入,啥是潛在類(lèi)別分析瓜浸?
Latent Class Analysis (LCA) is a statistical model in which individuals can be classified into mutually exclusive and exhaustive types, or latent classes, based on their pattern of answers on a set of (categorical) measured variables.
潛在類(lèi)別分析就是依據(jù)個(gè)體在分類(lèi)變量上的響應(yīng)澳淑,將個(gè)體分為互斥的組,群插佛,潛類(lèi)別杠巡。
在這兒,組雇寇,群氢拥,潛類(lèi)別都是一個(gè)東西蚌铜,這兒大家注意,在潛在類(lèi)別分析中響應(yīng)變量或者說(shuō)顯變一定是分類(lèi)變量嫩海,這個(gè)要和潛在剖面分析LPA區(qū)別開(kāi)冬殃。
在做潛類(lèi)別的時(shí)候你首先要設(shè)定你要你的數(shù)據(jù)有幾個(gè)潛類(lèi)別,我們的標(biāo)準(zhǔn)是擬合好的情況下盡可能選擇最少的潛類(lèi)別叁怪。
這兒值得注意的是审葬,在R語(yǔ)言種poLCA的作者說(shuō)過(guò)這么一段話:
He said, that he wouldn′t rely on statistical criteria to decide which model is the best, but he would look which model has the most meaningful interpretation and has a better answer to the research question.
也就是說(shuō)最終你考慮到底你的數(shù)據(jù)有幾個(gè)潛類(lèi)別時(shí),一定要考慮結(jié)果的可解釋性奕谭。
今天還是給大家寫(xiě)一個(gè)系統(tǒng)的例子涣觉。
實(shí)例操練
我們要用到的R包為poLCA,在做潛類(lèi)別分析的時(shí)候展箱,我們的數(shù)據(jù)中不能有0旨枯,負(fù)值和小數(shù)點(diǎn)蹬昌,還有混驰,如果你的變量是二分類(lèi)變量,一定不能編碼為0皂贩、1栖榨,需要改為1,2明刷。
跑潛在類(lèi)別分析的語(yǔ)法
poLCA(formula, data, nclass=2, maxiter=1000, graphs=FALSE, tol=1e-10, na.rm=TRUE, probs.start=NULL, nrep=1, verbose=TRUE, calc.se=TRUE)
上面是poLCA包默認(rèn)的語(yǔ)法參數(shù)婴栽,在自己跑的時(shí)候你可把graphs參數(shù)改成TRUE,這樣就可以自動(dòng)出圖辈末。
比如我們還是用上一篇文章中的samhsa2015.csv數(shù)據(jù)集跑愚争,那么語(yǔ)法就可以寫(xiě)為:
f1 <- cbind(mhintake, mhdiageval, mhreferral, treatmt, adminserv)~1
LCA2 <- poLCA(f1, data=samhsa2015, nclass=2,graphs=TRUE)
運(yùn)行后,我們就可以出圖:
圖中有每個(gè)顯變量挤聘,和兩個(gè)潛類(lèi)別在不同顯變量上的響應(yīng)概率以及兩個(gè)潛類(lèi)別中的個(gè)體數(shù)量占比轰枝。
循環(huán)語(yǔ)法
咱們自己做分析時(shí),會(huì)遇到的情況是组去,我也不知道我到底該把潛類(lèi)別數(shù)量固定為幾個(gè)鞍陨,所以我們需要一個(gè)一個(gè)去試,相信很多用Mplus的同學(xué)都有這種經(jīng)歷从隆,需要把類(lèi)別數(shù)量設(shè)定為不同的數(shù)诚撵,然后都跑一遍,然后把結(jié)果記下來(lái)键闺,再比較選擇最優(yōu)的模型寿烟。
但是如果用R跑,我們可以寫(xiě)一個(gè)循環(huán)辛燥,讓它一次性把所有可能給我們跑完筛武,并輸出最優(yōu)模型盅藻,豈不是美滋滋。所以大家一定有必要掌握一門(mén)編程語(yǔ)言哦畅铭。
循環(huán)語(yǔ)法如下:
#循環(huán)所有可能數(shù)量的潛類(lèi)別
max_II <- -100000
min_bic <- 100000
for(i in 2:10){
lc <- poLCA(f, mydata, nclass=i, maxiter=3000,
tol=1e-5, na.rm=FALSE,
nrep=10, verbose=TRUE, calc.se=TRUE)
if(lc$bic < min_bic){
min_bic <- lc$bic
LCA_best_model<-lc
}
}
LCA_best_model
大家只需要把自己的數(shù)據(jù)套進(jìn)去就可以直接輸出最優(yōu)模型啦氏淑。
比如還是我們剛剛用的數(shù)據(jù),直接運(yùn)行循環(huán)語(yǔ)法:
max_II <- -100000
min_bic <- 100000
for(i in 2:10){
lc <- poLCA(f1, samhsa2015, nclass=i, maxiter=3000,
tol=1e-5, na.rm=FALSE,
nrep=10, verbose=TRUE, calc.se=TRUE)
if(lc$bic < min_bic){
min_bic <- lc$bic
LCA_best_model<-lc
}
}
LCA_best_model
上面的代碼從2到10給你自動(dòng)擬合10個(gè)模型硕噩,并輸出最優(yōu)bic的模型假残,運(yùn)行時(shí)間有點(diǎn)長(zhǎng)哈,我電腦跑了20分鐘炉擅,大家耐心一點(diǎn)辉懒。
不過(guò)你不用設(shè)置跑2到10,一般情況跑2-5個(gè)潛類(lèi)別就完全夠用了谍失。
我對(duì)我的數(shù)據(jù)跑完上面的代碼后眶俩,得到如下結(jié)果
就是說(shuō),其實(shí)我的數(shù)據(jù)適合做4個(gè)潛類(lèi)別快鱼。
LCA畫(huà)2D可視化語(yǔ)法
我們poLCA的自己出的圖是3D的颠印,我們也可以選擇用ggplot2畫(huà)2D的圖出來(lái),代碼如下:
lcmodel <- reshape2::melt(LCA_best_model$probs, level=2)
zp1 <- ggplot(lcmodel,aes(x = L2, y = value, fill = Var2))
zp1 <- zp1 + geom_bar(stat = "identity", position = "stack")
zp1 <- zp1 + facet_grid(Var1 ~ .)
zp1 <- zp1 + scale_fill_brewer(type="seq", palette="Greys") +theme_bw()
zp1 <- zp1 + labs(x = "Fragebogenitems",y="Anteil der Item-\nAntwortkategorien", fill ="Antwortkategorien")
zp1 <- zp1 + theme( axis.text.y=element_blank(),
axis.ticks.y=element_blank(),
panel.grid.major.y=element_blank())
zp1 <- zp1 + guides(fill = guide_legend(reverse=TRUE))
print(zp1)
運(yùn)行后得到下圖:
這個(gè)如怎么解釋呢抹竹?
我這個(gè)數(shù)據(jù)不是有5個(gè)變量嘛线罕,意思就是指標(biāo)告訴我們根據(jù)這5個(gè)變量把數(shù)據(jù)分為4個(gè)潛類(lèi)別比較合適,上面這個(gè)圖就是每一個(gè)潛類(lèi)別在5個(gè)指標(biāo)上的響應(yīng)概率窃判,因?yàn)槲业拿總€(gè)指標(biāo)都是2分類(lèi)钞楼,pr(1)表示在相應(yīng)指標(biāo)響應(yīng)1的概率,pr(2)表示在相應(yīng)指標(biāo)相應(yīng)2的概率袄琳。
理解到這询件,我們就可以知道潛類(lèi)別3在每個(gè)指標(biāo)上響應(yīng)2的概率都很大,而潛類(lèi)別1在每個(gè)指標(biāo)上響應(yīng)1的概率都很大唆樊,以此類(lèi)推宛琅,根據(jù)這些信息你就可以給你數(shù)據(jù)的每個(gè)潛類(lèi)別進(jìn)行命名啦。
你學(xué)會(huì)了嘛窗轩?
快快關(guān)注一波夯秃。
小結(jié)
今天又給大家寫(xiě)了潛類(lèi)別的做法,感謝大家耐心看完痢艺,自己的文章都寫(xiě)的很細(xì)仓洼,代碼都在原文中,希望大家都可以自己做一做堤舒,請(qǐng)關(guān)注后私信回復(fù)“數(shù)據(jù)鏈接”獲取所有數(shù)據(jù)和本人收集的學(xué)習(xí)資料色建。如果對(duì)您有用請(qǐng)先收藏,再點(diǎn)贊轉(zhuǎn)發(fā)舌缤。
也歡迎大家的意見(jiàn)和建議箕戳,大家想了解什么統(tǒng)計(jì)方法都可以在文章下留言某残,說(shuō)不定我看見(jiàn)了就會(huì)給你寫(xiě)教程哦。