StatQuest學(xué)習(xí)筆記04——擬合

前言——主要內(nèi)容

這篇筆記是StatQuest視頻的第13到第15箕母,文件13內(nèi)容是擬合度盒让;文件14是內(nèi)容是線性回歸梅肤;文件15是局部加權(quán)最小二乘法司蔬。

在這篇筆記中邑茄,我們需要弄清楚幾個(gè)問題:

  1. 什么是相關(guān)系數(shù)(correlation,簡(jiǎn)稱為R)俊啼,相關(guān)系數(shù)的值有什么意義肺缕?
  2. 我們?yōu)槭裁搓P(guān)注R的平方?
  3. 最小二乘法的原理授帕。

第1個(gè)案例:R的平方

先看一個(gè)案例同木,下圖是小鼠的體重與小鼠編號(hào)的散點(diǎn)圖,如下所示:

image

紅色的是點(diǎn)是小鼠的體重跛十,黑色的橫線是平均值彤路。x軸上是小鼠的編號(hào),如果我們要查看這組數(shù)據(jù)的變異(variation)芥映,我們就把每只小鼠的體重送去平均值洲尊,然后再平方,再加起來(這個(gè)在統(tǒng)計(jì)學(xué)上叫離均差平方和奈偏,英文是sum of squares of deviations from mean)坞嘀,用數(shù)學(xué)公式就是下面的這個(gè)樣子:

image

此時(shí)我們?cè)僬乙环N方法繪制這個(gè)散點(diǎn)圖,此時(shí)將x軸坐標(biāo)改為小鼠的大小惊来,y軸還是小鼠的體重丽涩,此時(shí)散點(diǎn)圖就是下圖這個(gè)樣子:

image

此時(shí),它的平均值還是不變的裁蚁,還是如下圖的樣子:

image

從這個(gè)圖上矢渊,我們直觀上可以看出,小鼠的體重貌似是隨著小鼠的大小而增加的(這個(gè)很好理解枉证,不解釋)矮男。此時(shí),我們可以再想一下刽严,我們是否能夠通過小鼠的大小來預(yù)測(cè)它的體重昂灵?我們畫一條線,大致符合這些數(shù)據(jù)點(diǎn)的分布舞萄,如下所示:

image

此時(shí)眨补,如果我們已知一個(gè)小鼠的大小(size)倒脓,我們就能夠根據(jù)這條直線大致知道這個(gè)小鼠的體重撑螺。但是此時(shí)有個(gè)問題,這條直接是否能夠比平均值代表這批小鼠的大小與體重的關(guān)系崎弃?其實(shí)是可以的甘晤,我們有個(gè)指標(biāo)含潘,就是R的平方,它能判斷某條直線是否代表了小鼠的大小和體重的關(guān)系线婚,如下所示:

image

此時(shí)我們可以計(jì)算這個(gè)直線與均值的差異遏弱,其實(shí)就是計(jì)算{R}^2(順便說一句,寫統(tǒng)計(jì)學(xué)筆記塞弊,免不了要使用公式漱逸,現(xiàn)在markdown中對(duì)公式支持的比較好的是mathjax語法,而為目前來看游沿,Typora(最新版)饰抒,為知筆記對(duì)mathjax語法支持都不錯(cuò)),計(jì)算公式如下所示:

image

通過計(jì)算诀黍,var(mean)=32,Var(line)=6袋坑,根據(jù)公式,{R}^2如下所示:

image

注:{R}^2在統(tǒng)計(jì)學(xué)上叫決定系數(shù)(determination coefficient)眯勾,它反映了因變量的變異能夠被模型(納入的自變量)所解釋的比例枣宫,也就是模型解釋的變異占總變異的比例,此案例中咒精,這條直線能夠解釋81%的體重與大小的關(guān)系镶柱。

這個(gè)案例中講的情況我們?cè)谟肂CA測(cè)蛋白濃度法時(shí)經(jīng)常使用,x軸是吸光度模叙,y軸是蛋白含量歇拆,通過做曲線,找出吸光度與蛋白濃度的關(guān)系范咨,曲線做得好故觅,R的平方能達(dá)到0.99,如下所示:

image

第2個(gè)案例

再看一個(gè)案例渠啊,在這個(gè)案例中输吏,x軸是小鼠嗅巖石所花的時(shí)間(我不太清楚這是什么實(shí)驗(yàn),照字面翻譯了)替蛉,y軸是小鼠的體重贯溅,它的散點(diǎn)圖以及計(jì)算的R平方如下所示:

image

結(jié)果顯示,R的平方是6%躲查,它也就是說小鼠嗅巖石所花的時(shí)間與小鼠的體重關(guān)系不大它浅,這條藍(lán)色只能解釋6%的變異。

R平方的意義

因此镣煮,我們?cè)谧瞿硹l直線來表示兩個(gè)變量之間的關(guān)系時(shí)姐霍,如果R的平方是0.9,那么我們可以說,這條直接可以解釋這兩個(gè)變量90%的變異镊折。如果是0.01胯府,那么我們可以說,這條直接只能解釋這兩個(gè)變量1%的變異恨胚,也就是說這兩個(gè)變量沒什么關(guān)系骂因。

image

R與R的平方

那么什么是R,什么是R的平方呢与纽?什么時(shí)候使用這兩個(gè)參數(shù)侣签?看下圖的解釋:

image

通過情況,評(píng)估一個(gè)直線的好壞急迂,都是看R平方的,它直接代表了變異蹦肴,更好解釋直線的擬合好壞僚碎,而不是看R(很多統(tǒng)計(jì)軟件中也都是這樣)。例如一個(gè)直線的R是0.7阴幌,另外一個(gè)是0.5勺阐,那么轉(zhuǎn)換為R的平方,肯定是前者比后者要好矛双,如下所示:

image

但R的平方也有局限渊抽,就是R的平方都是正值,沒有負(fù)值议忽,它不代表兩個(gè)變量的具體關(guān)系懒闷,也就是說,這兩個(gè)變量是正相關(guān)(一個(gè)增加栈幸,另外一個(gè)也增加)愤估,還是負(fù)相關(guān)(一個(gè)增加,另外一個(gè)減少)速址,此時(shí)就要看R了玩焰,R是正值,表示正相關(guān)芍锚,R是負(fù)值昔园,表示負(fù)相關(guān)。

結(jié)論就是并炮,R的平方表示直線的擬合程度默刚,R表示了兩個(gè)變量變化的關(guān)系。

線性回歸

先看一個(gè)場(chǎng)景渣触,下圖是某個(gè)散點(diǎn)圖:

image

此時(shí)我們要繪制一條直線來代表這些點(diǎn)羡棵,這些直線可以有多條,就像下面的這些直線一樣:

image

但此時(shí)有個(gè)問題:哪一條直線最合適嗅钻?

問題解決思路如下:

第一皂冰,假如我們先隨便找條直接店展,例如y=3.5這條直線,如下所示:

image

我們可以計(jì)算這些點(diǎn)與這條直線的接近程序秃流,例如第一個(gè)點(diǎn)(x1,y1)赂蕴,如下所示:

image

那么第2個(gè)點(diǎn)的距離就是這個(gè)樣子:

image

再接著,計(jì)算第3個(gè)舶胀,如下所示:

image

還有第4個(gè)點(diǎn):

image

這第4個(gè)點(diǎn)與前面3個(gè)點(diǎn)不太一樣概说,因?yàn)椋琤-y4是一個(gè)負(fù)值嚣伐,第5個(gè)點(diǎn)也是如下:

image

第4個(gè)點(diǎn)與第5個(gè)點(diǎn)和前面的點(diǎn)不太一樣糖赔,因?yàn)榍懊娴腷-y1,b-y2轩端,b-y3都是正值放典,那么最終計(jì)算這些點(diǎn)與這個(gè)條直接的距離總和時(shí),會(huì)相互抵消基茵,為了避免這個(gè)問題奋构,可以將所有的數(shù)值平方,如下所示:

image

此時(shí)拱层,計(jì)算一下這些值的平方弥臼,數(shù)值為24.62,這個(gè)數(shù)值在統(tǒng)計(jì)學(xué)上叫殘差平方和(sum of squared residuals根灯,簡(jiǎn)稱SSE)径缅,殘差(residual)指的是實(shí)際數(shù)據(jù)與擬合曲線的差值平方的和,這個(gè)值越小箱吕,表示實(shí)際的數(shù)值離擬合曲線的距離越小置谦,也就是越能代表這些真實(shí)的數(shù)據(jù)寄啼,求出的這條曲線的方程的過程叫線性回歸(Linear regression)。

此時(shí),我們?cè)贀Q條曲線試試械哟,就是把上面的這條曲線旋轉(zhuǎn)一下拌牲,再計(jì)算一下SSE颊亮,如下所示:

image

它的SSE是18.72阀捅,貌似比第一曲線更好,再旋轉(zhuǎn)一下看看:

image

它的SSE是14.05熏瞄,貌似更好脚祟,再旋轉(zhuǎn)一下試試:

image

這個(gè)SSE是31.71,貌似就比較差了强饮。此時(shí)我們?cè)倏匆幌鲁R?guī)的曲線方程由桌,如下所示:

image

其中,a代表這條曲線的斜率,b代表截矩行您。我們要尋找最佳的擬合曲線必然是SSE最小的那條铭乾。而在統(tǒng)計(jì)學(xué)中,我們經(jīng)常把下面的公式叫做殘差平方和娃循,如下所示:

image

由于我們尋找這條曲線(尋找這條曲線炕檩,其實(shí)就是尋找這條曲線的斜率與截矩)的方法是通過尋找最小的SSE這個(gè)原理實(shí)現(xiàn)的,因此捌斧,這種求直線的方法就叫做最小二乘法(Least squares)(為什么這種方法的中文譯名與英語差異這么大笛质?因?yàn)槠椒皆谥袊糯臄?shù)學(xué)中就叫二乘,因此這種方法就翻譯成了最小二乘法)捞蚂,如下所示:

image

如果我們將上面的這些曲線以及旋轉(zhuǎn)后的曲線的SSE繪制出來妇押,我們就會(huì)得到下面的這個(gè)圖形:

image

x軸上是各種曲線的形狀(它們擁有不同的斜率與截矩),y軸是SSE洞难。上面的散點(diǎn)圖的本質(zhì)其實(shí)也是一條曲線(數(shù)學(xué)上的曲線包括彎曲的線與直線舆吮,它是點(diǎn)運(yùn)動(dòng)的集合),如何找到最佳擬合的曲線(這條曲線指提原始數(shù)據(jù)的擬合曲線)呢队贱,就是對(duì)曲線(這里的曲線指的上圖的這條曲線,也就是不同斜率和截矩下的各種曲線的SSE的集合)求導(dǎo)(derivative)潭袱,那么導(dǎo)數(shù)為0時(shí)柱嫌,也就是SSE最小(導(dǎo)數(shù)的推導(dǎo)與意義可以參見高中數(shù)學(xué))屯换,如下所示:

image

過程如下:

先看第一個(gè)點(diǎn):

image

再看第二個(gè)點(diǎn):

image

第三個(gè)點(diǎn):

image

在第三個(gè)點(diǎn)處的導(dǎo)數(shù)斜率為0(這點(diǎn)很重要)编丘,還有這些點(diǎn):

image

再回頭看第3個(gè)點(diǎn):

image

我們只需要記住,在對(duì)原始數(shù)據(jù)進(jìn)行擬合時(shí)彤悔,曲線的旋轉(zhuǎn)代表了不同的斜率a和截矩b嘉抓。

在計(jì)算最佳的擬合曲線時(shí),我們還使用一種三維坐標(biāo)系(x軸是斜率晕窑,y輛是截矩抑片,z值是SSE),如下所示:

image

那么如果我們選定一個(gè)截矩杨赤,然后繪制不同斜率對(duì)應(yīng)的SSE敞斋,如下所示:

image

接著,我們按照同樣的方法繪制大量不同截矩與斜率的曲線對(duì)應(yīng)的SSE疾牲,如下所示:

image

然后計(jì)算這些曲線的斜率與截矩的導(dǎo)數(shù),然后找出導(dǎo)數(shù)為0時(shí)的斜率與截矩阳柔。這種方法的計(jì)算過程通常是由計(jì)算機(jī)完成的焰枢。最終求出的線性回歸方程如下所示:

image

局部線性回歸

現(xiàn)在我看一個(gè)散點(diǎn)圖,如下所示:

image

我們?nèi)绻麑?duì)這散點(diǎn)進(jìn)行擬合,困難貌似比較大济锄,因?yàn)檫@些散點(diǎn)圖不可能用一個(gè)方程表示的直線進(jìn)行擬合枫虏。因此笤虫,我們?yōu)榱藬M合這種散點(diǎn)圖,就要換一種方法鳍咱,這種方法的核心思想是:

第一乳丰,將這些散點(diǎn)通過一個(gè)滑動(dòng)的窗口將它們分成更小的部分贱勃,如下所示:

image

第二焕妙,在每個(gè)滑動(dòng)窗口中,對(duì)這一小部分?jǐn)?shù)據(jù)進(jìn)行擬合瑞驱,求出它的線性回歸方向娘摔,此時(shí),就跟線性回歸一樣了唤反,最終再把這些線性回歸方程匯總起來凳寺,其本質(zhì)我覺得就是微積分的思想,如下所示:

image

下面是具體的思維過程彤侍,上面的散點(diǎn)圖有點(diǎn)復(fù)雜肠缨,我們先看一個(gè)比較簡(jiǎn)單的散點(diǎn)圖,我們把下面的散點(diǎn)圖以x軸的5個(gè)單位為基本單位進(jìn)行窗口的劃分盏阶,那么第一個(gè)滑動(dòng)窗口中含有5個(gè)數(shù)據(jù)點(diǎn)晒奕,就是圖中綠色方框圈起來的部分,如下所示:

image

此時(shí)名斟,我們把這個(gè)方框中的第一個(gè)點(diǎn)稱為這個(gè)窗口的焦點(diǎn)(focal point)脑慧,如下所示:

image

在第一個(gè)滑動(dòng)窗口的這5個(gè)點(diǎn)中,第2個(gè)點(diǎn)就是最接近焦點(diǎn)的點(diǎn)砰盐,它距離焦點(diǎn)是1個(gè)單位漾橙,如下所示:

image

第3個(gè)點(diǎn)就是第2個(gè)最接近焦點(diǎn)的點(diǎn),如下所示:

image

同理楞卡,還有第3個(gè),第4個(gè)最接近焦點(diǎn)的點(diǎn)脾歇,如下所示:

image

此時(shí)蒋腮,我們對(duì)這5個(gè)點(diǎn)做一個(gè)“加權(quán)最小二乘”(weighted least squares),離焦點(diǎn)最近的點(diǎn)它的權(quán)重(weight)就大(權(quán)重可以理解為影響擬合曲線的影響力)藕各,如下所示:

image

由上述描述可知池摧,焦點(diǎn)的權(quán)重最大,而其余點(diǎn)的權(quán)重與其跟焦點(diǎn)的距離成反比激况,最遠(yuǎn)的點(diǎn)(也就是上圖中4號(hào)點(diǎn))權(quán)重最小作彤,此時(shí)膘魄,我們先做一個(gè)普通的最小二乘法線性回歸,此時(shí)的回歸并不考慮各個(gè)點(diǎn)的權(quán)重竭讳,它的曲線如下所示:

image

我們?cè)僮鲆粋€(gè)加權(quán)后的線性回歸创葡,如下所示:

image

從圖中可以知,最后一個(gè)點(diǎn)的權(quán)重小绢慢,它對(duì)于這線曲線的斜率影響不大灿渴,并不會(huì)把斜率拉高,此時(shí)我就對(duì)這5個(gè)數(shù)據(jù)點(diǎn)有了一條擬合曲線胰舆,此時(shí)骚露,我們把第1個(gè)點(diǎn)(也就是上圖黑色的點(diǎn))的x軸坐標(biāo)代入這個(gè)擬合的曲線方程,求出一個(gè)新的點(diǎn)的坐標(biāo)缚窿,這個(gè)新的點(diǎn)的坐標(biāo)就是我們最終要擬合的曲線上的點(diǎn)棘幸,就是下圖的紅叉所在位置(雖然這個(gè)紅叉在圖片上與第1個(gè)點(diǎn)重合,但它們不是一個(gè)點(diǎn))倦零,如下所示:

image

我們?cè)倮^續(xù)误续。此時(shí)我們把第2個(gè)點(diǎn)當(dāng)作是焦點(diǎn),如下所示:

image

這個(gè)滑動(dòng)窗口中還是含有原來的4個(gè)點(diǎn)光绕,但是離焦點(diǎn)最近的點(diǎn)的已經(jīng)變成了2個(gè)女嘲,它們離焦點(diǎn)是1個(gè)單位,如下所示:

image

接著诞帐,離焦點(diǎn)次近一點(diǎn)的是離焦點(diǎn)有2個(gè)單位的點(diǎn)欣尼,如下所示:

image

最遠(yuǎn)的點(diǎn),是距離焦點(diǎn)有3個(gè)單位的點(diǎn)停蕉,如下所示:

image

此時(shí)愕鼓,我們使用加權(quán)最小二乘法時(shí),焦點(diǎn)權(quán)重最大慧起,如下所示:

image

兩邊的兩個(gè)點(diǎn)權(quán)重次之菇晃,如下所示:

image

最遠(yuǎn)的點(diǎn),權(quán)重最小蚓挤,此時(shí)我們畫出擬合曲線磺送,如下所示:

image

此時(shí),我們利用這個(gè)方程求出最終要擬合曲線上的點(diǎn)(這個(gè)點(diǎn)的x軸坐標(biāo)與上面第2個(gè)點(diǎn)的x軸坐標(biāo)一樣灿意,但y軸坐標(biāo)不一樣)估灿,因此,這個(gè)紅叉所在點(diǎn)(雖然圖片上看上去這個(gè)紅叉是與第2個(gè)點(diǎn)重合缤剧,其實(shí)是不是重合的)是我們最終要擬合的曲線上的第2個(gè)點(diǎn)馅袁,如下所示:

image

此時(shí),我們?cè)傺芯康?個(gè)點(diǎn)荒辕,將它當(dāng)成焦點(diǎn)汗销,如下所示:

image

方法如同第1個(gè)點(diǎn)和第2個(gè)點(diǎn)一樣犹褒,以第3個(gè)點(diǎn)為焦點(diǎn)擬合的曲線如下所示:

image

其中,紅叉的地方弛针,就是我們最終要擬合的曲線上的點(diǎn)叠骑,接著,我們看第4個(gè)點(diǎn)钦奋,如果第4個(gè)點(diǎn)是焦點(diǎn)的話座云,此時(shí)有點(diǎn)不太一樣,這個(gè)滑動(dòng)窗口與前面第1付材,2朦拖,3個(gè)點(diǎn)的窗口都有所不同(1,2厌衔,3個(gè)點(diǎn)的窗口其實(shí)是一樣的璧帝,因?yàn)榫嚯x它們最近的5個(gè)點(diǎn)都相同),而第4個(gè)點(diǎn)的話富寿,離它最近的4個(gè)點(diǎn)(一個(gè)窗口一共是5個(gè)點(diǎn))睬隶,并不包括第1個(gè)點(diǎn),如下所示:

image

離第4個(gè)點(diǎn)最近的兩個(gè)點(diǎn)在它的兩邊页徐,如下所示:

image

其次苏潜,離它最近的兩個(gè)點(diǎn)是稍遠(yuǎn)一點(diǎn)的,如下所示:

image

從圖上可知变勇,我們劃分窗口寬度的時(shí)候恤左,只考慮x軸,并不考慮y軸搀绣。此時(shí)飞袋,我們采用加權(quán)最小二乘法進(jìn)行擬合,如下所示:

image

然后链患,根據(jù)這條曲線巧鸭,計(jì)算我們最終要擬合曲線上的點(diǎn),它的求法是將第4個(gè)點(diǎn)的x軸坐標(biāo)代入上面的曲線方程麻捻,求出這個(gè)擬合曲線上的點(diǎn)纲仍,如下所示(此時(shí)的這個(gè)點(diǎn)與第4個(gè)點(diǎn)并不重合,只是x軸坐標(biāo)一樣):

image

此時(shí)贸毕,我們?cè)倏匆幌挛覀兦懊媲蟪龅男碌狞c(diǎn)巷折,如下所示:

image

按照這個(gè)方法,我們劃出一個(gè)窗口崖咨,然后求出這個(gè)窗口中的擬合曲線,然后計(jì)算這個(gè)窗口中焦點(diǎn)對(duì)應(yīng)的最終擬合曲線上的新的點(diǎn)油吭,最終击蹲,求出的所有新的點(diǎn)如下圖中的紅叉所示:

image

從下面的圖我們可知署拟,黑色橢圓中的這些點(diǎn)是被最上面的點(diǎn)拉上去了,如下所示:

image

而最上面的這個(gè)點(diǎn)就是個(gè)離群點(diǎn)(outliner)歌豺,為了避免這個(gè)點(diǎn)對(duì)整體擬合效果的影響推穷,我們需要根據(jù)這個(gè)點(diǎn)距離原始點(diǎn)和新生成點(diǎn)的距離,對(duì)這個(gè)點(diǎn)額外添加一個(gè)權(quán)重类咧,如下所示:

image

從上面的圖還可以知道馒铃,大括號(hào)標(biāo)中的點(diǎn)的權(quán)重比較低,因?yàn)樵键c(diǎn)與新生成的點(diǎn)距離比較遠(yuǎn)痕惋。而下面的這個(gè)點(diǎn)權(quán)重更低区宇,因?yàn)樗x得更遠(yuǎn),如下所示:

image

根據(jù)新生成的點(diǎn)與原始點(diǎn)之間的距離值戳,我們可以計(jì)算出新的權(quán)重议谷,這樣我們此時(shí)就有了兩組權(quán)重,

第一組就是基于每個(gè)窗口中堕虹,每個(gè)點(diǎn)距離焦點(diǎn)距離的原始權(quán)重卧晓,如下所示:

image

第二組就是基于原始點(diǎn)與新生成點(diǎn)的距離的權(quán)重,如下所示:

image

根據(jù)這些權(quán)重調(diào)整了原始點(diǎn)與新生成點(diǎn)的位置后赴捞,我們就可以看到“新-新”的點(diǎn)(new-new point)逼裆,從下圖中的第4個(gè)點(diǎn)和第5個(gè)點(diǎn)就能明顯看出來,它們之間的距離縮短了赦政,如下所示胜宇,利用這些調(diào)整后的點(diǎn)繪制曲線,就會(huì)顯得更加光滑昼钻。

image

我們把所有的點(diǎn)都進(jìn)行調(diào)整掸屡,我們就會(huì)得到一個(gè)完美,平滑的回歸曲線然评,如下所示:

image

不過仅财,這個(gè)調(diào)整過程要不斷地進(jìn)行幾次才能得到理想的平滑曲線,以下就是最終得到的曲線:

image

另外的思考

我們?cè)囅胍幌峦胩剩诘?個(gè)窗口中盏求,我們采用回歸曲線是直線,其實(shí)它也可以做成拋物線亿眠,如下所示:

image

我們先看一個(gè)案例碎罚,還是最初的散點(diǎn)圖:

image

下圖的黑色曲線是在每一步都采用了加權(quán)最小二乘法得到的曲線,藍(lán)色曲線是在每一步都采用了拋物線進(jìn)行擬合的曲線:

image

從圖中我們可以看到纳像,貌似劃線的擬合效果更好荆烈。在而R語言中,如果只想擬合為常規(guī)的這種直線,可以采用lowess()函數(shù)憔购,如果想要擬合為拋物線或直線宫峦,可以采用loess()函數(shù),如下所示:

image

在R中玫鸟,使用loess()函數(shù)還能繪制出曲線的置信區(qū)間导绷,如下所示:

image

關(guān)于滑動(dòng)窗口的設(shè)置取決于用戶自身,滑動(dòng)窗口的劃分可以按照精確的單位進(jìn)行劃分屎飘,也可以按照百分比來進(jìn)行劃分妥曲,下圖我認(rèn)為是使用了5%這個(gè)比例來進(jìn)行劃分的(從圖上大概可以看出來,5%的比例范圍內(nèi)钦购,這個(gè)曲線是直線):

image

下圖的藍(lán)色擬合曲線是使用了總數(shù)據(jù)點(diǎn)的三分之一進(jìn)行窗口劃分的:

image

下圖的紅色曲線是使用了R語言中loess()這個(gè)函數(shù)的默認(rèn)值進(jìn)行擬合的檐盟,而它的默認(rèn)值是75%的數(shù)據(jù)點(diǎn),如下所示:

image

關(guān)于權(quán)重

計(jì)算權(quán)重的公式僅僅是出于數(shù)學(xué)上的考慮肮雨,并沒有考慮它們的生物學(xué)或物理學(xué)上的意義遵堵。

image

下圖的左圖是考慮了每個(gè)數(shù)據(jù)點(diǎn)距離x軸的距離后計(jì)算的權(quán)重,下圖的右圖是考慮了原始數(shù)據(jù)點(diǎn)與新生成數(shù)據(jù)點(diǎn)的距離后計(jì)算的權(quán)重:

image

下圖左圖是對(duì)這兩種權(quán)重進(jìn)行比較怨规,我們可以發(fā)現(xiàn)陌宿,這兩種權(quán)重有一些微妙的差別,而右圖表示的是另外的一種權(quán)重函數(shù)(右圖沒聽清楚原視頻中說的是什么意思波丰,有空翻一下書再來補(bǔ)充):

image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末壳坪,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子掰烟,更是在濱河造成了極大的恐慌爽蝴,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件纫骑,死亡現(xiàn)場(chǎng)離奇詭異蝎亚,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)先馆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門发框,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人煤墙,你說我怎么就攤上這事梅惯。” “怎么了仿野?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵铣减,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我脚作,道長(zhǎng)葫哗,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮劣针,結(jié)果婚禮上桨螺,老公的妹妹穿的比我還像新娘。我一直安慰自己酿秸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布魏烫。 她就那樣靜靜地躺著辣苏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪哄褒。 梳的紋絲不亂的頭發(fā)上稀蟋,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音呐赡,去河邊找鬼退客。 笑死,一個(gè)胖子當(dāng)著我的面吹牛链嘀,可吹牛的內(nèi)容都是我干的萌狂。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼怀泊,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼茫藏!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起霹琼,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤务傲,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后枣申,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體售葡,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年忠藤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了挟伙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡熄驼,死狀恐怖像寒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情瓜贾,我是刑警寧澤诺祸,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站祭芦,受9級(jí)特大地震影響筷笨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一胃夏、第九天 我趴在偏房一處隱蔽的房頂上張望轴或。 院中可真熱鬧,春花似錦仰禀、人聲如沸照雁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽饺蚊。三九已至,卻和暖如春悬嗓,著一層夾襖步出監(jiān)牢的瞬間污呼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工包竹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留燕酷,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓周瞎,卻偏偏與公主長(zhǎng)得像苗缩,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子堰氓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容