因子型變量的特點(diǎn)就是采用二進(jìn)制來表示響應(yīng)變量刀森,即0和1,0表示沒有這個(gè)變量而1代表有這個(gè)變量隅要。
我們已其中一個(gè)例子為例:
這是我們的輸入數(shù)據(jù)蝴罪,其中height為響應(yīng)變量,為連續(xù)型變量步清;sex和att為決策變量要门,為因子型變量
單一因子變量
如果我們已sex為決策變量,那么它只有兩個(gè)水平:female和male廓啊,我們可以看下它的因子水平:
contrasts(test$sex)
而在建模時(shí)欢搜,誰在前面就默認(rèn)為對照組,此例子中female在前面谴轮,因此female為對照組
顯然female編碼為0炒瘟,male編碼為1;建模如下:
lm_sex <- lm(height ~ sex, data = test)
打開模型我們?nèi)菀卓矗?br>
由于female = 0第步,male = 1疮装,那么截距項(xiàng)為167.31表示的是female的平均height,而sexmale表示的是回歸方程的斜率粘都,male的平均height為167.31 + 15.13
回歸方程為:height = sex × β + b廓推;那么對于sex來說存在兩種水平:female = 0,male = 1翩隧,因此當(dāng)female = 0時(shí)樊展,female的平均height即為方程截距b;而當(dāng)male = 1時(shí),male的平均height為 β + b
多水平因子變量
我們以att為例专缠,首先看下因子水平:
contrasts(test$att)
很顯然雷酪,這次 1 為對照組,而后的 2藤肢,3太闺,4糯景,5 都是與 1 作為比較嘁圈,建模如下:
lm_att <- lm(height ~ att, data = test)
線性模型:height = att × β + b,對于多水平的因子模型蟀淮,斜率 β 會(huì)隨著因子決策變量的不同而不同最住,即 att 不同,則 β 也就不同怠惶,并且所有組別(2涨缚,3,4策治,5)均是與組別 1 作為對比
對于多因子的線性模型脓魏,結(jié)合上圖結(jié)果我們看到,截距 b 表示 1 組別的平均height通惫,而當(dāng) att = 2 時(shí)茂翔,β = 7.564,因此 att = 2 的平均height為 169.8 + 7.564履腋;當(dāng) att = 3 時(shí)珊燎,β = 6.533,因此 att = 3 的平均height為 169.8 + 6.533遵湖;當(dāng) att = 4 時(shí)悔政,β = 7.8,因此 att = 4 的平均height為 169.8 + 7.8延旧;當(dāng) att = 5 時(shí)谋国,β = 4.2,因此 att = 5 的平均height為 169.8 + 4.2