? ? ? “最小二乘均數(shù)”(Least Squares Means,LSM)或者有時(shí)被稱為“調(diào)整后的均值”(Adjusted Means),它們常在統(tǒng)計(jì)學(xué)中用于多因素實(shí)驗(yàn)設(shè)計(jì)或協(xié)方差分析中。最小二乘均數(shù)考慮了其他變量的影響祝辣,并提供了一種在控制了這些變量之后的均值估計(jì)。在實(shí)踐中,最小二乘均數(shù)是研究者用來比較不同治療效果的一種常用方法撞羽,尤其是當(dāng)實(shí)驗(yàn)設(shè)計(jì)包含復(fù)雜的協(xié)變量結(jié)構(gòu)時(shí)。這些均數(shù)在所有實(shí)驗(yàn)組中被校正衫冻,以反映所有其他條件保持不變時(shí)的平均響應(yīng)诀紊。
一、最小二乘均數(shù)的計(jì)算過程
? ? ? 我們可以從一個(gè)相對(duì)簡(jiǎn)單的情況開始討論:比如我們有一個(gè)實(shí)驗(yàn)隅俘,包括兩組人群(比如男性和女性)邻奠,而我們想要比較的是他們?cè)谀承y(cè)試下的表現(xiàn)分?jǐn)?shù)笤喳。但是,我們知道年齡也影響測(cè)試分?jǐn)?shù)碌宴,所以我們要把年齡這個(gè)變量的影響去掉杀狡,來得到兩組在“平均年齡”下的比較結(jié)果。這里唧喉,年齡是一個(gè)協(xié)變量捣卤。直接計(jì)算“原始平均分”會(huì)忽略掉年齡的影響,所以我們需要考慮它八孝。以下是如何進(jìn)行這種校正:
1董朝、建立一個(gè)線性模型:首先,我們?yōu)闇y(cè)試分?jǐn)?shù)構(gòu)建一個(gè)線性模型干跛,其中包含性別和年齡作為解釋變量子姜。模型可能看起來類似于這樣:
Score = β0 + β1 * Gender + β2 * Age + ε
這里,Gender可以是虛擬變量(男性為0楼入,女性為1)哥捕,β1表示性別的效應(yīng),β2表示年齡的效應(yīng)嘉熊,ε是誤差項(xiàng)遥赚。
2、擬合這個(gè)模型:使用最小二乘法來估計(jì)模型的參數(shù)阐肤。這會(huì)給我們提供了各個(gè)變量的估計(jì)效應(yīng)(系數(shù))凫佛。這樣我們就能得到每一年齡增加對(duì)分?jǐn)?shù)的平均影響。
3孕惜、計(jì)算原始平均分:原始平均分很簡(jiǎn)單愧薛,它只是每組(比如男性和女性)中所有分?jǐn)?shù)的平均值。
4衫画、校正估計(jì)值以得到最小二乘均數(shù):校正估計(jì)值時(shí)毫炉,需要調(diào)整協(xié)變量(即年齡)的影響。我們會(huì)計(jì)算出在平均年齡下削罩,不同性別組的預(yù)測(cè)分?jǐn)?shù)瞄勾。簡(jiǎn)單來說,這意味著:使用整個(gè)樣本的年齡平均值將作為模型中的年齡弥激。如果男性的平均年齡是45歲进陡,女性為43歲,而整體樣本的平均年齡是44歲秆撮,那么我們將在預(yù)測(cè)分?jǐn)?shù)時(shí)都使用44歲這個(gè)平均年齡。假設(shè)模型給了我們以下估計(jì)的系數(shù):
β0(截距换况,不包含性別和年齡時(shí)的基本分?jǐn)?shù)) = 50分
β1(性別职辨,對(duì)于女性的加成) = 5分
β2(年齡盗蟆,每增加一歲的加成)= 0.5分
那么,最小二乘均數(shù)對(duì)于每個(gè)性別組別將是:
對(duì)于男性:LSM = β0 + β1 * 0 + β2 * 44
對(duì)于女性:LSM = β0 + β1 * 1 + β2 * 44
代入數(shù)字后:
男性的LSM = 50 + 0 + 0.5 * 44 = 72分
女性的LSM = 50 + 5 + 0.5 * 44 = 77分
解釋:即使男女的原始平均分可能不同舒裤,校正后的最小二乘均數(shù)告訴我們一個(gè)更加精確的故事:控制年齡因素后喳资,平均來看滞项,女性在測(cè)試中的分?jǐn)?shù)比男性高5分适滓。
? ? ? ?這樣校正得到的最小二乘均數(shù)在統(tǒng)計(jì)上更為準(zhǔn)確,因?yàn)樗藚f(xié)變量可能帶來的偏差淋袖。在實(shí)際應(yīng)用中伴鳖,最小二乘均數(shù)的計(jì)算可能會(huì)涉及到更復(fù)雜的模型和多個(gè)協(xié)變量节值,但基本的思路是一致的:控制其他變量來得到更加公平的比較。
? ? ? ?最小二乘均數(shù)的計(jì)算通常需要專門的統(tǒng)計(jì)軟件榜聂,如SAS搞疗、SPSS、R或Python等须肆,其中包含用于擬合復(fù)雜模型和計(jì)算最小二乘均數(shù)的特定函數(shù)或包匿乃。這些軟件會(huì)處理包括求解系數(shù)、進(jìn)行均值的預(yù)測(cè)與調(diào)整等在內(nèi)的復(fù)雜數(shù)學(xué)運(yùn)算豌汇。
二幢炸、原始均值與校正均值
? ? ? 在計(jì)算校正估計(jì)值以得到最小二乘均數(shù)(第4步)的過程中,實(shí)際上并不需要直接計(jì)算原始平均分(第3步)拒贱。原始平均分通常是沒有考慮任何協(xié)變量影響的簡(jiǎn)單平均值宛徊,而最小二乘均數(shù)則是考慮了模型中的協(xié)變量之后的調(diào)整過的平均值。在實(shí)際的統(tǒng)計(jì)分析中柜思,我們通常會(huì)同時(shí)報(bào)告原始平均分和最小二乘均數(shù)岩调,這兩者可以提供不同的信息:
原始平均分 告訴我們?cè)诓豢紤]其他因素(如協(xié)變量)的影響下,數(shù)據(jù)的簡(jiǎn)單平均表現(xiàn)是多少赡盘。這可以作為一個(gè)參考點(diǎn)号枕,但可能包含了許多混雜因素的影響。
最小二乘均數(shù) 提供了一個(gè)在控制了協(xié)變量后更加“公正”的比較陨享。這是一種更加復(fù)雜葱淳、精細(xì)的估計(jì)。
? ? ? ?當(dāng)報(bào)告研究結(jié)果時(shí)抛姑,原始平均分可能會(huì)先被展示赞厕,以顯示出在沒有任何調(diào)整的情況下,數(shù)據(jù)的基本情況定硝。之后皿桑,研究者會(huì)報(bào)告最小二乘均數(shù),來展示在考慮了其他變量后的比較結(jié)果。這有助于強(qiáng)調(diào)協(xié)變量的影響诲侮,并且提供了一個(gè)更準(zhǔn)確的考慮了背景變量影響的均值镀虐。
? ? ? ?換句話說,原始平均分是為了展示數(shù)據(jù)未經(jīng)修正的狀態(tài)沟绪,而最小二乘均數(shù)是為了在模型的框架下提供一個(gè)經(jīng)過校正的刮便、無偏的比較。為了讓讀者或觀眾更好地理解研究結(jié)果的含義绽慈,這兩種均值往往同時(shí)報(bào)告恨旱。但對(duì)于進(jìn)行數(shù)據(jù)分析和解釋來說,最小二乘均數(shù)更為關(guān)鍵坝疼,因?yàn)樗峁┝艘粋€(gè)統(tǒng)計(jì)學(xué)意義上的搜贤、考慮了所有已知影響因素的平均值。