All models are wrong but some are useful. —George Box
普通最小二乘回歸(ordinary least square蹋辅,OLS)姑蓝,也被稱為普通最小平方估計(jì)回歸
Y=β0+β1X1+β2X2+β3X3+···+e疙描,這是常見的線性回歸方程运准,那么如何估計(jì)回歸系數(shù)β呢?其中一種方法就是最小二乘估計(jì)屉凯。(取平方的方法叫最小二乘估計(jì)描焰,那取絕對值的方法就叫最小一乘估計(jì))
在OLS得到的結(jié)果會很好背捌,如果它滿足以下所有這些假設(shè):(1)回歸系數(shù)是線性,(2)所有自變量x必須與殘差不相關(guān)洞斯,(3)殘差之間不相關(guān)(序列相關(guān))毡庆,(4)殘差的方差恒定,(5)自變量之間不存在高度相關(guān)性(避免多線性/共線性)烙如,(6)殘差服從正態(tài)分布
殘差在數(shù)理統(tǒng)計(jì)中是指實(shí)際觀察值與估計(jì)值(擬合值)之間的差么抗。
在多元線性回歸中,一般采用最小二乘法進(jìn)行回歸系數(shù)的估計(jì),以使得殘差平方和達(dá)到最小棕硫,但當(dāng)自變量之間存在多重相關(guān)性時(shí)募舟,最小二乘估計(jì)方法往往會失效。為消除這種影響吞琐,常采用主成分分析方法來提取主成分仰迁,雖然能較好地概括自變量系統(tǒng)中的信息,卻帶進(jìn)了許多無用的噪音顽分,從而對因變量Y缺乏解釋能力徐许。因此,偏最小二乘回歸方法應(yīng)運(yùn)而生卒蘸。
關(guān)于多重相關(guān)性的理解:https://zhuanlan.zhihu.com/p/69888091
偏最小二乘回歸((partial least square雌隅,PLS))
偏最小二乘回歸可以將建模類型的預(yù)測分析方法與非模型式的數(shù)據(jù)內(nèi)涵分析方法有機(jī)地結(jié)合起來,可以同時(shí)實(shí)現(xiàn)回歸建模缸沃、數(shù)據(jù)結(jié)構(gòu)簡化(主成分分析)以及兩組變量間的相關(guān)性分析(典型性分析)恰起,集合多元線性回歸分析、典型相關(guān)分析和主成分分析的基本功能為一體趾牧。
偏最小二乘回歸 ≈ 多元線性回歸分析 + 典型相關(guān)分析 + 主成分分析
當(dāng)只有一個(gè)自變量時(shí)稱為一元線性回歸检盼,當(dāng)有多個(gè)自變量時(shí)稱為多元線性回歸
PLS是一種多元統(tǒng)計(jì)技術(shù),是一種基于協(xié)方差的統(tǒng)計(jì)方法翘单,它允許在多個(gè)因變量Y和多個(gè)自變量X之間進(jìn)行比較(Tennenhaus, 1998)吨枉。PLS的目標(biāo)是從x預(yù)測y,并描述兩個(gè)變量的共同結(jié)構(gòu)(Abdi2003)哄芜。PLS是一種回歸方法貌亭,允許識別潛在因素,這是解釋變量或X(也稱為潛在變量)的線性組合與最好的響應(yīng)模型或Y變量(Tobias, 1997)的線性組合认臊。在PLS中圃庭,潛在變量之間的最優(yōu)線性關(guān)系被計(jì)算出來,并且可以被解釋為研究中給出所有限制的最佳預(yù)測變量集(Falk & miller, 1992)失晴。
協(xié)方差:方差分析要求各比較組除了所施加的處理因素不同外剧腻,其他對觀測指標(biāo)有影響的因素應(yīng)該齊同或均衡。如何在比較多組均數(shù)差別的同時(shí)扣除或均衡這些非研究因素的影響涂屁,可考慮進(jìn)行協(xié)方差分析书在。協(xié)方差分析≈線性回歸分析+方差分析
考慮自變量有多個(gè),因變量只有一個(gè)時(shí)候的回歸胯陋,當(dāng)自變量的多重相關(guān)性差的時(shí)候蕊温,可以直接使用最小二乘求解回歸模型;
1遏乔、考慮自變量有多個(gè)义矛,因變量只有一個(gè)時(shí)候的回歸,當(dāng)自變量的多重共線性強(qiáng)的時(shí)候盟萨,可以對自變量做主成分分析凉翻,然后使用主成分作為新的自變量,再使用最小二乘求解回歸模型捻激;
2制轰、考慮自變量有多個(gè)前计,因變量也有多個(gè)的時(shí)候的回歸,如果自變量和因變量都不存在多重共線性的時(shí)候垃杖,可以分別使用自變量對每一個(gè)因變量做回歸男杈,使用最小二乘求解;
3调俘、考慮自變量有多個(gè)伶棒,因變量也有多個(gè)的時(shí)候的回歸,如果自變量存在多重共線性彩库,因變量不存在多重共線性的時(shí)候肤无,可以對自變量做主成分分析,然后使用主成分作為新的自變量分別對每一個(gè)因變量做回歸骇钦,使用最小二乘求解宛渐;
4、考慮自變量有多個(gè)眯搭,因變量也有多個(gè)的時(shí)候的回歸窥翩,如果自變量和因變量都存在多重共線性的時(shí)候該怎么辦呢,這時(shí)候還是使用主成分分析+分別對每個(gè)變量做回歸嗎坦仍?
偏最小二乘提供一種多對多的線性回歸建模方法鳍烁,即自變量有多個(gè)叨襟,因變量也有多個(gè)的時(shí)候的建模方法繁扎,尤其適用于自變量和因變量都存在多重共線性的情況。
————————————————
版權(quán)聲明:本文為CSDN博主「林曉明」的原創(chuàng)文章糊闽,遵循CC 4.0 BY-SA版權(quán)協(xié)議梳玫,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/weixin_42408467/article/details/103514246
PLS-DA(Partial Least Squares Discriminant Analysis)偏最小二乘法判別分析
與主成分分析PCA的區(qū)別:PCA是無監(jiān)督學(xué)習(xí)方法(在分析時(shí)不清楚每個(gè)樣品的處理分組右犹,單純根據(jù)數(shù)據(jù)特征進(jìn)行分析)提澎。在PCA降維過程中,因變量Y(響應(yīng)變量)也沒有參與指導(dǎo)主成分的構(gòu)造念链,所以PCA有一個(gè)弊端:無法保證很好地解釋預(yù)測變量X的方向同時(shí)可以很好地預(yù)測因變量Y盼忌。
而PLS是有監(jiān)督的學(xué)習(xí)方法。利用PLS降維的目的是使提取后得到的特征變量不僅能很好的概括原始變量的信息掂墓,而且對因變量有很強(qiáng)的解釋能力谦纱。具體過程為分別從自變量和因變量中提取成分T,U(偏最小二乘因子),保證T,U能盡可能多的提取所在變量組的變異信息君编,同時(shí)保證二者之間的相關(guān)性最大跨嘉。PLS把m個(gè)主成分作為新的變量集,在此基礎(chǔ)上進(jìn)行最小二乘回歸吃嘿,所以響應(yīng)變量起到了調(diào)整各主成分參數(shù)的作用祠乃。偏最小二乘回歸可以較好的解決樣本個(gè)數(shù)少于變量個(gè)數(shù)的問題梦重,并且除了考慮自變量矩陣外,還考慮了相應(yīng)矩陣亮瓷。
————————————————
版權(quán)聲明:本文為CSDN博主「隔壁王者新」的原創(chuàng)文章琴拧,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明嘱支。
原文鏈接:https://blog.csdn.net/sxx1214/article/details/94394526
對有監(jiān)督和無監(jiān)督學(xué)習(xí)的另一個(gè)直觀的理解:PCA也是屬于探索性分析方法的一種艾蓝,所以我們一般分析降維時(shí)第一反應(yīng)會想到用PCA(當(dāng)然老師教我們的時(shí)候,首先也會教基礎(chǔ)的一些探索性的分析方法斗塘,比如PCA)赢织,PCA一做處理間能分開達(dá)到你的研究目的了,就沒必要再去想用其他方法再弄馍盟;但總有一些樣品(比如多重共線性很多于置,自變量個(gè)數(shù)遠(yuǎn)遠(yuǎn)大于樣品數(shù)量等等)可能就分不太開、效果不好贞岭,比如得到如下的第一張圖八毯,樣品就沒有被分開;因此瞄桨,想到要把Y加進(jìn)去话速,做一下有監(jiān)督的PLS-DA,同樣的數(shù)據(jù)拿來做PLS-DA可能就分開了(如下第二張圖)芯侥。
https://blog.csdn.net/geekfocus/article/details/118521287
http://www.360doc.com/content/20/1111/03/72085106_945227062.shtml
參考資料
https://blog.csdn.net/weixin_39833454/article/details/111372832
普通最小二乘回歸vs偏最小二乘回歸(doi:10.1016/j.sbspro.2010.07.308)
多重共線性舉例(https://zhuanlan.zhihu.com/p/69888091)
多重共線性診斷及處理(https://blog.csdn.net/weixin_30905981/article/details/98774167?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-1-98774167-blog-82717410.t0_edu_mix&spm=1001.2101.3001.4242.2&utm_relevant_index=4 )
線性函數(shù)和線性回歸的區(qū)別(https://www.zhihu.com/question/271558319)