StatQuest學(xué)習(xí)筆記04——擬合

前言——主要內(nèi)容

這篇筆記是StatQuest視頻的第13到第15箕母，文件13內(nèi)容是擬合度盒让；文件14是內(nèi)容是線性回歸梅肤；文件15是局部加權(quán)最小二乘法司蔬。

在這篇筆記中邑茄，我們需要弄清楚幾個(gè)問題：

什么是相關(guān)系數(shù)（correlation，簡(jiǎn)稱為R）俊啼，相關(guān)系數(shù)的值有什么意義肺缕？
我們?yōu)槭裁搓P(guān)注R的平方？
最小二乘法的原理授帕。

第1個(gè)案例：R的平方

先看一個(gè)案例同木，下圖是小鼠的體重與小鼠編號(hào)的散點(diǎn)圖，如下所示：

image

紅色的是點(diǎn)是小鼠的體重跛十，黑色的橫線是平均值彤路。x軸上是小鼠的編號(hào)，如果我們要查看這組數(shù)據(jù)的變異（variation）芥映，我們就把每只小鼠的體重送去平均值洲尊，然后再平方，再加起來（這個(gè)在統(tǒng)計(jì)學(xué)上叫離均差平方和奈偏，英文是sum of squares of deviations from mean）坞嘀，用數(shù)學(xué)公式就是下面的這個(gè)樣子：

image

此時(shí)我們?cè)僬乙环N方法繪制這個(gè)散點(diǎn)圖，此時(shí)將x軸坐標(biāo)改為小鼠的大小惊来，y軸還是小鼠的體重丽涩，此時(shí)散點(diǎn)圖就是下圖這個(gè)樣子：

image

此時(shí)，它的平均值還是不變的裁蚁，還是如下圖的樣子：

image

從這個(gè)圖上矢渊，我們直觀上可以看出，小鼠的體重貌似是隨著小鼠的大小而增加的（這個(gè)很好理解枉证，不解釋）矮男。此時(shí)，我們可以再想一下刽严，我們是否能夠通過小鼠的大小來預(yù)測(cè)它的體重昂灵？我們畫一條線，大致符合這些數(shù)據(jù)點(diǎn)的分布舞萄，如下所示：

image

此時(shí)眨补，如果我們已知一個(gè)小鼠的大小（size）倒脓，我們就能夠根據(jù)這條直線大致知道這個(gè)小鼠的體重撑螺。但是此時(shí)有個(gè)問題，這條直接是否能夠比平均值代表這批小鼠的大小與體重的關(guān)系崎弃？其實(shí)是可以的甘晤，我們有個(gè)指標(biāo)含潘，就是R的平方，它能判斷某條直線是否代表了小鼠的大小和體重的關(guān)系线婚，如下所示：

image

此時(shí)我們可以計(jì)算這個(gè)直線與均值的差異遏弱，其實(shí)就是計(jì)算 ${R}^2$ （順便說一句，寫統(tǒng)計(jì)學(xué)筆記塞弊，免不了要使用公式漱逸，現(xiàn)在markdown中對(duì)公式支持的比較好的是mathjax語法，而為目前來看游沿，Typora（最新版）饰抒，為知筆記對(duì)mathjax語法支持都不錯(cuò)），計(jì)算公式如下所示：

image

通過計(jì)算诀黍，var(mean)=32,Var(line)=6袋坑，根據(jù)公式， ${R}^2$ 如下所示：

image

注： ${R}^2$ 在統(tǒng)計(jì)學(xué)上叫決定系數(shù)（determination coefficient）眯勾，它反映了因變量的變異能夠被模型（納入的自變量）所解釋的比例枣宫，也就是模型解釋的變異占總變異的比例，此案例中咒精，這條直線能夠解釋81%的體重與大小的關(guān)系镶柱。

這個(gè)案例中講的情況我們?cè)谟肂CA測(cè)蛋白濃度法時(shí)經(jīng)常使用，x軸是吸光度模叙，y軸是蛋白含量歇拆，通過做曲線，找出吸光度與蛋白濃度的關(guān)系范咨，曲線做得好故觅，R的平方能達(dá)到0.99，如下所示：

image

第2個(gè)案例

再看一個(gè)案例渠啊，在這個(gè)案例中输吏，x軸是小鼠嗅巖石所花的時(shí)間（我不太清楚這是什么實(shí)驗(yàn)，照字面翻譯了）替蛉，y軸是小鼠的體重贯溅，它的散點(diǎn)圖以及計(jì)算的R平方如下所示：

image

結(jié)果顯示，R的平方是6%躲查，它也就是說小鼠嗅巖石所花的時(shí)間與小鼠的體重關(guān)系不大它浅，這條藍(lán)色只能解釋6%的變異。

R平方的意義

因此镣煮，我們?cè)谧瞿硹l直線來表示兩個(gè)變量之間的關(guān)系時(shí)姐霍，如果R的平方是0.9，那么我們可以說，這條直接可以解釋這兩個(gè)變量90%的變異镊折。如果是0.01胯府，那么我們可以說，這條直接只能解釋這兩個(gè)變量1%的變異恨胚，也就是說這兩個(gè)變量沒什么關(guān)系骂因。

image

R與R的平方

那么什么是R，什么是R的平方呢与纽？什么時(shí)候使用這兩個(gè)參數(shù)侣签？看下圖的解釋：

image

通過情況，評(píng)估一個(gè)直線的好壞急迂，都是看R平方的，它直接代表了變異蹦肴，更好解釋直線的擬合好壞僚碎，而不是看R（很多統(tǒng)計(jì)軟件中也都是這樣）。例如一個(gè)直線的R是0.7阴幌，另外一個(gè)是0.5勺阐，那么轉(zhuǎn)換為R的平方，肯定是前者比后者要好矛双，如下所示：

image

但R的平方也有局限渊抽，就是R的平方都是正值，沒有負(fù)值议忽，它不代表兩個(gè)變量的具體關(guān)系懒闷，也就是說，這兩個(gè)變量是正相關(guān)（一個(gè)增加栈幸，另外一個(gè)也增加）愤估，還是負(fù)相關(guān)（一個(gè)增加，另外一個(gè)減少）速址，此時(shí)就要看R了玩焰，R是正值，表示正相關(guān)芍锚，R是負(fù)值昔园，表示負(fù)相關(guān)。

結(jié)論就是并炮，R的平方表示直線的擬合程度默刚，R表示了兩個(gè)變量變化的關(guān)系。

線性回歸

先看一個(gè)場(chǎng)景渣触，下圖是某個(gè)散點(diǎn)圖：

image

此時(shí)我們要繪制一條直線來代表這些點(diǎn)羡棵，這些直線可以有多條，就像下面的這些直線一樣：

image

但此時(shí)有個(gè)問題：哪一條直線最合適嗅钻？

問題解決思路如下：

第一皂冰，假如我們先隨便找條直接店展，例如y=3.5這條直線，如下所示：

image

我們可以計(jì)算這些點(diǎn)與這條直線的接近程序秃流，例如第一個(gè)點(diǎn)（x1,y1）赂蕴，如下所示：

image

那么第2個(gè)點(diǎn)的距離就是這個(gè)樣子：

image

再接著，計(jì)算第3個(gè)舶胀，如下所示：

image

還有第4個(gè)點(diǎn)：

image

這第4個(gè)點(diǎn)與前面3個(gè)點(diǎn)不太一樣概说，因?yàn)椋琤-y4是一個(gè)負(fù)值嚣伐，第5個(gè)點(diǎn)也是如下：

image

第4個(gè)點(diǎn)與第5個(gè)點(diǎn)和前面的點(diǎn)不太一樣糖赔，因?yàn)榍懊娴腷-y1，b-y2轩端，b-y3都是正值放典，那么最終計(jì)算這些點(diǎn)與這個(gè)條直接的距離總和時(shí)，會(huì)相互抵消基茵，為了避免這個(gè)問題奋构，可以將所有的數(shù)值平方，如下所示：

image

此時(shí)拱层，計(jì)算一下這些值的平方弥臼，數(shù)值為24.62，這個(gè)數(shù)值在統(tǒng)計(jì)學(xué)上叫殘差平方和（sum of squared residuals根灯，簡(jiǎn)稱SSE）径缅，殘差（residual）指的是實(shí)際數(shù)據(jù)與擬合曲線的差值平方的和，這個(gè)值越小箱吕，表示實(shí)際的數(shù)值離擬合曲線的距離越小置谦，也就是越能代表這些真實(shí)的數(shù)據(jù)寄啼，求出的這條曲線的方程的過程叫線性回歸（Linear regression）。

此時(shí)，我們?cè)贀Q條曲線試試械哟，就是把上面的這條曲線旋轉(zhuǎn)一下拌牲，再計(jì)算一下SSE颊亮，如下所示：

image

它的SSE是18.72阀捅，貌似比第一曲線更好，再旋轉(zhuǎn)一下看看：

image

它的SSE是14.05熏瞄，貌似更好脚祟，再旋轉(zhuǎn)一下試試：

image

這個(gè)SSE是31.71，貌似就比較差了强饮。此時(shí)我們?cè)倏匆幌鲁Ｒ?guī)的曲線方程由桌，如下所示：

image

其中，a代表這條曲線的斜率，b代表截矩行您。我們要尋找最佳的擬合曲線必然是SSE最小的那條铭乾。而在統(tǒng)計(jì)學(xué)中，我們經(jīng)常把下面的公式叫做殘差平方和娃循，如下所示：

image

由于我們尋找這條曲線（尋找這條曲線炕檩，其實(shí)就是尋找這條曲線的斜率與截矩）的方法是通過尋找最小的SSE這個(gè)原理實(shí)現(xiàn)的，因此捌斧，這種求直線的方法就叫做最小二乘法（Least squares）（為什么這種方法的中文譯名與英語差異這么大笛质？因?yàn)槠椒皆谥袊糯臄?shù)學(xué)中就叫二乘，因此這種方法就翻譯成了最小二乘法）捞蚂，如下所示：

image

如果我們將上面的這些曲線以及旋轉(zhuǎn)后的曲線的SSE繪制出來妇押，我們就會(huì)得到下面的這個(gè)圖形：

image

x軸上是各種曲線的形狀（它們擁有不同的斜率與截矩），y軸是SSE洞难。上面的散點(diǎn)圖的本質(zhì)其實(shí)也是一條曲線（數(shù)學(xué)上的曲線包括彎曲的線與直線舆吮，它是點(diǎn)運(yùn)動(dòng)的集合），如何找到最佳擬合的曲線（這條曲線指提原始數(shù)據(jù)的擬合曲線）呢队贱，就是對(duì)曲線（這里的曲線指的上圖的這條曲線，也就是不同斜率和截矩下的各種曲線的SSE的集合）求導(dǎo)（derivative）潭袱，那么導(dǎo)數(shù)為0時(shí)柱嫌，也就是SSE最小（導(dǎo)數(shù)的推導(dǎo)與意義可以參見高中數(shù)學(xué)）屯换，如下所示：

image

過程如下：

先看第一個(gè)點(diǎn)：

image

再看第二個(gè)點(diǎn)：

image

第三個(gè)點(diǎn)：

image

在第三個(gè)點(diǎn)處的導(dǎo)數(shù)斜率為0（這點(diǎn)很重要）编丘，還有這些點(diǎn)：

image

再回頭看第3個(gè)點(diǎn)：

image

我們只需要記住，在對(duì)原始數(shù)據(jù)進(jìn)行擬合時(shí)彤悔，曲線的旋轉(zhuǎn)代表了不同的斜率a和截矩b嘉抓。

在計(jì)算最佳的擬合曲線時(shí)，我們還使用一種三維坐標(biāo)系（x軸是斜率晕窑，y輛是截矩抑片，z值是SSE），如下所示：

image

那么如果我們選定一個(gè)截矩杨赤，然后繪制不同斜率對(duì)應(yīng)的SSE敞斋，如下所示：

image

接著，我們按照同樣的方法繪制大量不同截矩與斜率的曲線對(duì)應(yīng)的SSE疾牲，如下所示：

image

然后計(jì)算這些曲線的斜率與截矩的導(dǎo)數(shù)，然后找出導(dǎo)數(shù)為0時(shí)的斜率與截矩阳柔。這種方法的計(jì)算過程通常是由計(jì)算機(jī)完成的焰枢。最終求出的線性回歸方程如下所示：

image

局部線性回歸

現(xiàn)在我看一個(gè)散點(diǎn)圖，如下所示：

image

我們?nèi)绻麑?duì)這散點(diǎn)進(jìn)行擬合，困難貌似比較大济锄，因?yàn)檫@些散點(diǎn)圖不可能用一個(gè)方程表示的直線進(jìn)行擬合枫虏。因此笤虫，我們?yōu)榱藬M合這種散點(diǎn)圖，就要換一種方法鳍咱，這種方法的核心思想是：

第一乳丰，將這些散點(diǎn)通過一個(gè)滑動(dòng)的窗口將它們分成更小的部分贱勃，如下所示：

image

第二焕妙，在每個(gè)滑動(dòng)窗口中，對(duì)這一小部分?jǐn)?shù)據(jù)進(jìn)行擬合瑞驱，求出它的線性回歸方向娘摔，此時(shí)，就跟線性回歸一樣了唤反，最終再把這些線性回歸方程匯總起來凳寺，其本質(zhì)我覺得就是微積分的思想，如下所示：

image

下面是具體的思維過程彤侍，上面的散點(diǎn)圖有點(diǎn)復(fù)雜肠缨，我們先看一個(gè)比較簡(jiǎn)單的散點(diǎn)圖，我們把下面的散點(diǎn)圖以x軸的5個(gè)單位為基本單位進(jìn)行窗口的劃分盏阶，那么第一個(gè)滑動(dòng)窗口中含有5個(gè)數(shù)據(jù)點(diǎn)晒奕，就是圖中綠色方框圈起來的部分，如下所示：

image

此時(shí)名斟，我們把這個(gè)方框中的第一個(gè)點(diǎn)稱為這個(gè)窗口的焦點(diǎn)（focal point）脑慧，如下所示：

image

在第一個(gè)滑動(dòng)窗口的這5個(gè)點(diǎn)中，第2個(gè)點(diǎn)就是最接近焦點(diǎn)的點(diǎn)砰盐，它距離焦點(diǎn)是1個(gè)單位漾橙，如下所示：

image

第3個(gè)點(diǎn)就是第2個(gè)最接近焦點(diǎn)的點(diǎn)，如下所示：

image

同理楞卡，還有第3個(gè)，第4個(gè)最接近焦點(diǎn)的點(diǎn)脾歇，如下所示：

image

此時(shí)蒋腮，我們對(duì)這5個(gè)點(diǎn)做一個(gè)“加權(quán)最小二乘”（weighted least squares），離焦點(diǎn)最近的點(diǎn)它的權(quán)重（weight）就大（權(quán)重可以理解為影響擬合曲線的影響力）藕各，如下所示：

image

由上述描述可知池摧，焦點(diǎn)的權(quán)重最大，而其余點(diǎn)的權(quán)重與其跟焦點(diǎn)的距離成反比激况，最遠(yuǎn)的點(diǎn)（也就是上圖中4號(hào)點(diǎn)）權(quán)重最小作彤，此時(shí)膘魄，我們先做一個(gè)普通的最小二乘法線性回歸，此時(shí)的回歸并不考慮各個(gè)點(diǎn)的權(quán)重竭讳，它的曲線如下所示：

image

我們?cè)僮鲆粋€(gè)加權(quán)后的線性回歸创葡，如下所示：

image

從圖中可以知，最后一個(gè)點(diǎn)的權(quán)重小绢慢，它對(duì)于這線曲線的斜率影響不大灿渴，并不會(huì)把斜率拉高，此時(shí)我就對(duì)這5個(gè)數(shù)據(jù)點(diǎn)有了一條擬合曲線胰舆，此時(shí)骚露，我們把第1個(gè)點(diǎn)（也就是上圖黑色的點(diǎn)）的x軸坐標(biāo)代入這個(gè)擬合的曲線方程，求出一個(gè)新的點(diǎn)的坐標(biāo)缚窿，這個(gè)新的點(diǎn)的坐標(biāo)就是我們最終要擬合的曲線上的點(diǎn)棘幸，就是下圖的紅叉所在位置（雖然這個(gè)紅叉在圖片上與第1個(gè)點(diǎn)重合，但它們不是一個(gè)點(diǎn)）倦零，如下所示：

image

我們?cè)倮^續(xù)误续。此時(shí)我們把第2個(gè)點(diǎn)當(dāng)作是焦點(diǎn)，如下所示：

image

這個(gè)滑動(dòng)窗口中還是含有原來的4個(gè)點(diǎn)光绕，但是離焦點(diǎn)最近的點(diǎn)的已經(jīng)變成了2個(gè)女嘲，它們離焦點(diǎn)是1個(gè)單位，如下所示：

image

接著诞帐，離焦點(diǎn)次近一點(diǎn)的是離焦點(diǎn)有2個(gè)單位的點(diǎn)欣尼，如下所示：

image

最遠(yuǎn)的點(diǎn)，是距離焦點(diǎn)有3個(gè)單位的點(diǎn)停蕉，如下所示：

image

此時(shí)愕鼓，我們使用加權(quán)最小二乘法時(shí)，焦點(diǎn)權(quán)重最大慧起，如下所示：

image

兩邊的兩個(gè)點(diǎn)權(quán)重次之菇晃，如下所示：

image

最遠(yuǎn)的點(diǎn)，權(quán)重最小蚓挤，此時(shí)我們畫出擬合曲線磺送，如下所示：

image

此時(shí)，我們利用這個(gè)方程求出最終要擬合曲線上的點(diǎn)（這個(gè)點(diǎn)的x軸坐標(biāo)與上面第2個(gè)點(diǎn)的x軸坐標(biāo)一樣灿意，但y軸坐標(biāo)不一樣）估灿，因此，這個(gè)紅叉所在點(diǎn)（雖然圖片上看上去這個(gè)紅叉是與第2個(gè)點(diǎn)重合缤剧，其實(shí)是不是重合的）是我們最終要擬合的曲線上的第2個(gè)點(diǎn)馅袁，如下所示：

image

此時(shí)，我們?cè)傺芯康?個(gè)點(diǎn)荒辕，將它當(dāng)成焦點(diǎn)汗销，如下所示：

image

方法如同第1個(gè)點(diǎn)和第2個(gè)點(diǎn)一樣犹褒，以第3個(gè)點(diǎn)為焦點(diǎn)擬合的曲線如下所示：

image

其中，紅叉的地方弛针，就是我們最終要擬合的曲線上的點(diǎn)叠骑，接著，我們看第4個(gè)點(diǎn)钦奋，如果第4個(gè)點(diǎn)是焦點(diǎn)的話座云，此時(shí)有點(diǎn)不太一樣，這個(gè)滑動(dòng)窗口與前面第1付材，2朦拖，3個(gè)點(diǎn)的窗口都有所不同（1，2厌衔，3個(gè)點(diǎn)的窗口其實(shí)是一樣的璧帝，因?yàn)榫嚯x它們最近的5個(gè)點(diǎn)都相同），而第4個(gè)點(diǎn)的話富寿，離它最近的4個(gè)點(diǎn)（一個(gè)窗口一共是5個(gè)點(diǎn)）睬隶，并不包括第1個(gè)點(diǎn)，如下所示：

image

離第4個(gè)點(diǎn)最近的兩個(gè)點(diǎn)在它的兩邊页徐，如下所示：

image

其次苏潜，離它最近的兩個(gè)點(diǎn)是稍遠(yuǎn)一點(diǎn)的，如下所示：

image

從圖上可知变勇，我們劃分窗口寬度的時(shí)候恤左，只考慮x軸，并不考慮y軸搀绣。此時(shí)飞袋，我們采用加權(quán)最小二乘法進(jìn)行擬合，如下所示：

image

然后链患，根據(jù)這條曲線巧鸭，計(jì)算我們最終要擬合曲線上的點(diǎn)，它的求法是將第4個(gè)點(diǎn)的x軸坐標(biāo)代入上面的曲線方程麻捻，求出這個(gè)擬合曲線上的點(diǎn)纲仍，如下所示（此時(shí)的這個(gè)點(diǎn)與第4個(gè)點(diǎn)并不重合，只是x軸坐標(biāo)一樣）：

image

此時(shí)贸毕，我們?cè)倏匆幌挛覀兦懊媲蟪龅男碌狞c(diǎn)巷折，如下所示：

image

按照這個(gè)方法，我們劃出一個(gè)窗口崖咨，然后求出這個(gè)窗口中的擬合曲線，然后計(jì)算這個(gè)窗口中焦點(diǎn)對(duì)應(yīng)的最終擬合曲線上的新的點(diǎn)油吭，最終击蹲，求出的所有新的點(diǎn)如下圖中的紅叉所示：

image

從下面的圖我們可知署拟，黑色橢圓中的這些點(diǎn)是被最上面的點(diǎn)拉上去了，如下所示：

image

而最上面的這個(gè)點(diǎn)就是個(gè)離群點(diǎn)（outliner）歌豺，為了避免這個(gè)點(diǎn)對(duì)整體擬合效果的影響推穷，我們需要根據(jù)這個(gè)點(diǎn)距離原始點(diǎn)和新生成點(diǎn)的距離，對(duì)這個(gè)點(diǎn)額外添加一個(gè)權(quán)重类咧，如下所示：

image

從上面的圖還可以知道馒铃，大括號(hào)標(biāo)中的點(diǎn)的權(quán)重比較低，因?yàn)樵键c(diǎn)與新生成的點(diǎn)距離比較遠(yuǎn)痕惋。而下面的這個(gè)點(diǎn)權(quán)重更低区宇，因?yàn)樗x得更遠(yuǎn)，如下所示：

image

根據(jù)新生成的點(diǎn)與原始點(diǎn)之間的距離值戳，我們可以計(jì)算出新的權(quán)重议谷，這樣我們此時(shí)就有了兩組權(quán)重，

第一組就是基于每個(gè)窗口中堕虹，每個(gè)點(diǎn)距離焦點(diǎn)距離的原始權(quán)重卧晓，如下所示：

image

第二組就是基于原始點(diǎn)與新生成點(diǎn)的距離的權(quán)重，如下所示：

image

根據(jù)這些權(quán)重調(diào)整了原始點(diǎn)與新生成點(diǎn)的位置后赴捞，我們就可以看到“新-新”的點(diǎn)（new-new point）逼裆，從下圖中的第4個(gè)點(diǎn)和第5個(gè)點(diǎn)就能明顯看出來，它們之間的距離縮短了赦政，如下所示胜宇，利用這些調(diào)整后的點(diǎn)繪制曲線，就會(huì)顯得更加光滑昼钻。

image

我們把所有的點(diǎn)都進(jìn)行調(diào)整掸屡，我們就會(huì)得到一個(gè)完美，平滑的回歸曲線然评，如下所示：

image

不過仅财，這個(gè)調(diào)整過程要不斷地進(jìn)行幾次才能得到理想的平滑曲線，以下就是最終得到的曲線：

image

另外的思考

我們?cè)囅胍幌峦胩剩诘?個(gè)窗口中盏求，我們采用回歸曲線是直線，其實(shí)它也可以做成拋物線亿眠，如下所示：

image

我們先看一個(gè)案例碎罚，還是最初的散點(diǎn)圖：

image

下圖的黑色曲線是在每一步都采用了加權(quán)最小二乘法得到的曲線，藍(lán)色曲線是在每一步都采用了拋物線進(jìn)行擬合的曲線：

image

從圖中我們可以看到纳像，貌似劃線的擬合效果更好荆烈。在而R語言中，如果只想擬合為常規(guī)的這種直線，可以采用lowess()函數(shù)憔购，如果想要擬合為拋物線或直線宫峦，可以采用loess()函數(shù)，如下所示：

image

在Ｒ中玫鸟，使用loess()函數(shù)還能繪制出曲線的置信區(qū)間导绷，如下所示：

image

關(guān)于滑動(dòng)窗口的設(shè)置取決于用戶自身，滑動(dòng)窗口的劃分可以按照精確的單位進(jìn)行劃分屎飘，也可以按照百分比來進(jìn)行劃分妥曲，下圖我認(rèn)為是使用了5%這個(gè)比例來進(jìn)行劃分的（從圖上大概可以看出來，5%的比例范圍內(nèi)钦购，這個(gè)曲線是直線）：

image

下圖的藍(lán)色擬合曲線是使用了總數(shù)據(jù)點(diǎn)的三分之一進(jìn)行窗口劃分的：

image

下圖的紅色曲線是使用了R語言中loess()這個(gè)函數(shù)的默認(rèn)值進(jìn)行擬合的檐盟，而它的默認(rèn)值是75%的數(shù)據(jù)點(diǎn)，如下所示：

image

關(guān)于權(quán)重

計(jì)算權(quán)重的公式僅僅是出于數(shù)學(xué)上的考慮肮雨，并沒有考慮它們的生物學(xué)或物理學(xué)上的意義遵堵。

image

下圖的左圖是考慮了每個(gè)數(shù)據(jù)點(diǎn)距離x軸的距離后計(jì)算的權(quán)重，下圖的右圖是考慮了原始數(shù)據(jù)點(diǎn)與新生成數(shù)據(jù)點(diǎn)的距離后計(jì)算的權(quán)重：

image

下圖左圖是對(duì)這兩種權(quán)重進(jìn)行比較怨规，我們可以發(fā)現(xiàn)陌宿，這兩種權(quán)重有一些微妙的差別，而右圖表示的是另外的一種權(quán)重函數(shù)（右圖沒聽清楚原視頻中說的是什么意思波丰，有空翻一下書再來補(bǔ)充）：

image

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末壳坪，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子掰烟，更是在濱河造成了極大的恐慌爽蝴，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件纫骑，死亡現(xiàn)場(chǎng)離奇詭異蝎亚，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)先馆，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門发框，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人煤墙，你說我怎么就攤上這事梅惯。” “怎么了仿野？”我有些...
開封第一講書人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵铣减，是天一觀的道長(zhǎng)。經(jīng)常有香客問我脚作，道長(zhǎng)葫哗，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮劣针，結(jié)果婚禮上桨螺，老公的妹妹穿的比我還像新娘。我一直安慰自己酿秸，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布魏烫。她就那樣靜靜地躺著辣苏，像睡著了一般。火紅的嫁衣襯著肌膚如雪哄褒。梳的紋絲不亂的頭發(fā)上稀蟋，一...
開封第一講書人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說
那天，我揣著相機(jī)與錄音呐赡，去河邊找鬼退客。笑死，一個(gè)胖子當(dāng)著我的面吹牛链嘀，可吹牛的內(nèi)容都是我干的萌狂。我是一名探鬼主播，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼怀泊，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼茫藏！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起霹琼，我...
開封第一講書人閱讀 36,916評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤务傲，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后枣申，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體售葡，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年忠藤，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了挟伙。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡熄驼，死狀恐怖像寒，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情瓜贾，我是刑警寧澤诺祸，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站祭芦，受9級(jí)特大地震影響筷笨，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一胃夏、第九天我趴在偏房一處隱蔽的房頂上張望轴或。院中可真熱鬧，春花似錦仰禀、人聲如沸照雁。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評(píng)論 0贊 19
一樁弒父案答恶，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽饺蚊。三九已至，卻和暖如春悬嗓，著一層夾襖步出監(jiān)牢的瞬間污呼，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工包竹，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留燕酷，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓周瞎，卻偏偏與公主長(zhǎng)得像苗缩，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子堰氓，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345

StatQuest學(xué)習(xí)筆記04——擬合

前言——主要內(nèi)容

第1個(gè)案例：R的平方

第2個(gè)案例

R平方的意義

R與R的平方

線性回歸

局部線性回歸

另外的思考

關(guān)于權(quán)重

推薦閱讀更多精彩內(nèi)容