描述統(tǒng)計 Descriptive Statistics

基本概念

統(tǒng)計是對數(shù)據(jù)進(jìn)行收集胯府、分析延届、展示和解讀的科學(xué)和藝術(shù)消玄,這句話聽起來很高深薯演,但其實也沒必要非要把統(tǒng)計想得過于復(fù)雜和深奧撞芍,一個簡單的把數(shù)據(jù)按照從高到低的順序整理的過程也可以稱為統(tǒng)計。

采用一定的工具如圖表跨扮、圖形和計算序无,對被觀察對象的數(shù)據(jù)進(jìn)行整理,得到諸如均值 Mean/ Expectation衡创,方差 Variance帝嗡,頻數(shù) Frequency,交叉表 Crosstabulation璃氢,直方圖 Histogram哟玷,柱狀圖 Bar Chart 等形式,并借助這些整理的結(jié)果來對數(shù)據(jù)進(jìn)行解讀的統(tǒng)計學(xué)應(yīng)用稱為描述統(tǒng)計 Descriptive statistics一也。

在統(tǒng)計學(xué)中巢寡,被研究的對象的所有可能的結(jié)果的集合稱為總體 Population喉脖,之所以采用這個詞是因為正是人口普查 census 催生了現(xiàn)代統(tǒng)計學(xué)的很多研究結(jié)果,所以總體這個英文單詞最常用的翻譯是“人口”抑月。

在實際應(yīng)用中树叽,想統(tǒng)計全部的人口或任何一個研究對象的總體都是不容易的,因此常常需要通過統(tǒng)計學(xué)知識利用從總體中抽取的樣本數(shù)據(jù)中觀測到的統(tǒng)計值來對總體數(shù)據(jù)的相應(yīng)特征進(jìn)行推斷谦絮,這一統(tǒng)計學(xué)應(yīng)用稱為推理統(tǒng)計 Inferential statistics题诵。在推理統(tǒng)計中,為了使得他人可以了解推斷的質(zhì)量和準(zhǔn)確性挨稿,除了點對點的給出總體的某些描述統(tǒng)計特征(點估計 Point estimate)外,還會同時給出這些總體特征的可能的取值區(qū)間(區(qū)間估計 Interval estimate)京痢,實驗者對于這個區(qū)間包含總體特征的置信程度 confidence level 等來進(jìn)一步對結(jié)果進(jìn)行說明奶甘。

由于被研究的對象的某些特征的取值很可能是事先難以確定的,因此是可以說取值是一些變量 variable祭椰,所以我們常用變量符號如 x臭家,y 來表示,而為了便于定量的研究這些變量而嚴(yán)格限制每一個變量的結(jié)果都采用數(shù)值的形式加以表示時方淤,這些變量在統(tǒng)計學(xué)的語境中就被命名為隨機(jī)變量 Random variables钉赁。

描述統(tǒng)計簡介

最基本的描述統(tǒng)計就是以表格的形式對數(shù)據(jù)進(jìn)行整理歸類,在分類的基礎(chǔ)上進(jìn)行頻次統(tǒng)計携茂、相對頻率你踩、頻率百分比和其他描述統(tǒng)計指標(biāo)的計算,在這個過程中還可以將統(tǒng)計的結(jié)果可視化讳苦,從而在雜亂無章的數(shù)據(jù)中找出隱含的信息带膜,如數(shù)據(jù)的分布形態(tài),集中程度等鸳谜。

Frequency statistics with tabular form

在進(jìn)行頻數(shù)統(tǒng)計時膝藕,從更有效的數(shù)據(jù)可視化的角度,對于類別型數(shù)據(jù) Categorical data 和個別離散型數(shù)值數(shù)據(jù) Quantitative data 可以通過柱狀圖 bar chart 來將數(shù)據(jù)分類咐扭,而對于大多數(shù)數(shù)值數(shù)據(jù)芭挽,尤其是連續(xù)型數(shù)值數(shù)據(jù)來說應(yīng)該用直方圖 Histogram 來進(jìn)行統(tǒng)計。并且如果采用橫軸做量值的分類蝗肪,縱軸做頻數(shù)統(tǒng)計的話袜爪,除非數(shù)據(jù)本身有空位,否則不應(yīng)該為了區(qū)分不同類別而人為的改變橫軸的度量比例薛闪,而是應(yīng)該使用緊鄰的直方圖饿敲,并保留數(shù)據(jù)原有的分布形狀,因為在很多情況下這些形狀本身就蘊(yùn)含著很多信息逛绵。關(guān)于在數(shù)據(jù)可視化中的圖形選擇原則怀各,可以參考 Data Visualization: Rules for Encoding Values in Graph倔韭。

Histogram

上述列表分析和可視化都是針對單個隨機(jī)變量而言的,如果針對兩個隨機(jī)變量瓢对,則在歸類時可以使用交叉表 Crosstabulation 來做匯總寿酌,并重點關(guān)注列表的交叉區(qū)域,以了解這兩個變量之間的關(guān)聯(lián)關(guān)系硕蛹。這里需要注意的是醇疼,如果數(shù)據(jù)分析中涉及多個交叉列表,有時會需要將多個交叉列表合并成一個新的匯總性的交叉列表法焰。此時秧荆,從這個匯總的交叉列表中尋求結(jié)論時需要注意 Simpson 悖論 問題,即需要注意是否有對結(jié)果解讀有影響的因素在匯總時被忽略掉了埃仪。

Crosstabulation

在可視化中乙濒,當(dāng)兩個變量的取值都是數(shù)值型數(shù)據(jù)時,可以通過散點圖 Scatter plot 來將統(tǒng)計的結(jié)果可視化卵蛉,從而一目了然的發(fā)現(xiàn)二者之間的關(guān)系:

Scatter plot and trendline

而當(dāng)這兩個變量中有一個是類別數(shù)據(jù)時颁股,則可以采用并列柱狀圖或累計柱狀圖來進(jìn)行可視化:

Side by side bar chart
Stacked bar chart

隨機(jī)變量取值位置情況的度量

在取得隨機(jī)變量的多個不同的取值以后,在統(tǒng)計中每一個取值稱為一個樣本點傻丝,可以通過一些指標(biāo)對于這些取值的位置特性進(jìn)行一個度量甘有,其中一個非常重要的指標(biāo)就是均值。

均值 Average/ 期望 Expectation

均值這個指標(biāo)是如此重要以至于它已經(jīng)融入到我們的日常表達(dá)中葡缰,我們常說某個事情的平均水平是某個值亏掀,就代表如果從樣本集中獲取一個樣本,可以預(yù)期其取值應(yīng)該在平均水平附近泛释,因此均值也被稱為期望 Expectation幌氮。

為了區(qū)分總體和樣本,總體的均值用 μ 來表示胁澳,總體中所包含的樣本點的數(shù)量用 N 表示该互,樣本的均值用 x? 來表示,樣本中所包含的樣本點的數(shù)量用 n 表示韭畸。

總體的均值為:

  • μ = Σxi / N宇智,其中 i = 1, ... , N

樣本均值為:

  • x? = Σxi / n,其中 i = 1, ... , n

下面這張圖形象的描述了均值的“位置”描述能力胰丁,即均值取值的位置會隨著樣本集中不同的樣本點的取值的變化而變化随橘。

Every value from samples has their impacts on the location of Mean
加權(quán)平均 Weighted average

在一般的均值計算中,可以認(rèn)為對于各個樣本點的權(quán)重都是相等的锦庸,即都等于 1/n机蔗,在一些情況下也需要給予不同的樣本點不同的權(quán)重,這樣的均值計算稱為加權(quán)平均,其計算公式為:

  • x? = Σwixi / Σwi萝嘁,其中 wi 為第 i 次觀察值的權(quán)重

下圖這個多次以不同價格采購不同數(shù)量的產(chǎn)品梆掸,如果想要了解所有被采購產(chǎn)品的平均價格,就需要采用加權(quán)平均牙言,其最終平均價格為:

  • x? = (3 x 1200 + 3.4 x 500 + 2.8 x 2750 + 2.9 x 1000 + 3.25 x 800) / (1200 + 500 + 2750 + 1000 + 800) = 2.96
Weighted average
幾何平均數(shù) Geometric average

嚴(yán)格意義上講酸钦,前面的均值計算應(yīng)該稱為算數(shù)平均數(shù),還有一種均值的計算方式稱為幾何平均數(shù)咱枉,其計算公式為:

  • x?g = (x1x2... xn)1/n

其典型應(yīng)用場合為對于變化速率的計算卑硫,如復(fù)利計算、年增長率計算等蚕断。例如如果一筆投資第一年利率為 0.06欢伏,第二年利率為 0.08,第三年利率為 0.10亿乳,那么這三年的平均利率應(yīng)該為 0.0799硝拧,也即是說如果每年的利率是 0.0799,那么在期初投資同一筆錢风皿,三年后兩種模式下的收益是一樣的河爹。

中位數(shù) Median

將樣本集中的所有樣本點按照從小到大的順序排成一個數(shù)列后匠璧,位于這個數(shù)列中間位置的那個數(shù)稱為中位數(shù)桐款,當(dāng)樣本集中包含的樣本的個數(shù)為偶數(shù)時,取中間兩個值的平均值夷恍。在描述樣本集的位置情況時魔眨,中位數(shù)相比均值不容易受到異常值 outlier 的影響。

眾數(shù) Mode

將樣本點做頻數(shù)統(tǒng)計后酿雪,頻數(shù)最高的那個數(shù)就稱為眾數(shù) Mode遏暴,這個數(shù)值反映了一種取值的傾向性,所以對應(yīng)的在英文中用的是 Mode指黎,這個英文單詞比較令人熟知的翻譯是“趨勢”朋凉。

百分位數(shù) Percentiles

百分位數(shù)提供了樣本集中樣本取值的相對位置信息,其正式的定義為:

The pth percentile is a value such that at least p percent of the observations are less than or equal to this value and at least (100 - p) percent of the observations are greater than or equal to this value.

四分位數(shù) Quatiles

百分位數(shù)最常用的一個特例是將樣本集的取值由 25%醋安,50%杂彭,75% 百分位數(shù)分成 4 個部分,常用 Q1吓揪,Q2亲怠,Q3 來表示。

隨機(jī)變量取值變動情況的度量

除了對隨機(jī)變量取值的位置進(jìn)行度量以外柠辞,我們還需要了解這些取值的變動或分布情況团秽。

取值范圍 Range

最簡單的衡量取值變動程度的指標(biāo)就是取值范圍,也即最大值與最小值之差。

四分位差 Interquartile range

由于取值范圍容易受到異常的極大和極小值的影響习勤,因此對于數(shù)據(jù)的整體分布情況的度量能力有限踪栋,一個更進(jìn)一步的度量方式是采用 IQR = Q3 - Q1,也即 75 百分位數(shù)與 25 百分位數(shù)之差來給出中間 50% 的數(shù)字的取值范圍姻报。

方差

與前幾個分布指標(biāo)相比己英,方差充分考慮到了數(shù)據(jù)集中每一個隨機(jī)變量的取值與數(shù)據(jù)集的均值的偏差值 deviation ,并以此來計算數(shù)據(jù)分布情況吴旋。

同樣地损肛,總體的均值用 μ 來表示,總體中所包含的樣本點的數(shù)量用 N 表示,樣本的均值用 x? 來表示跟磨,樣本中所包含的樣本點的數(shù)量用 n 表示析既。

總體的方差計算公式為:

  • σ2 = Σ(xi - μ)2 / N

樣本的方差計算公式為:

  • s2 = Σ(xi - x?)2 / (n - 1)

樣本方差的分母為 n - 1 是因為樣本集的數(shù)據(jù)離散程度大概率上是小于總體的離散程度的,并且在現(xiàn)實應(yīng)用中總體的數(shù)據(jù)是很難獲得的劫谅,都是需要用樣本的方差來近似總體的方差,此時就需要將樣本的方差做一個校正嚷掠,校正方式為將原方差公式中的 n 替換成 n - 1 將樣本的方差做一個放大捏检。

Sample variance computation

標(biāo)準(zhǔn)差 Standard deviation

在計算樣本集中每個樣本的取值與均值的偏差時,由于對于任何數(shù)據(jù)集都有 Σ(xi - x?) == 0不皆,因此方差計算中采用的是偏差的平方和 Σ(xi - x?)2贯城。對于量值數(shù)據(jù)來說,方差的單位是原有隨機(jī)變量量綱的平方霹娄,而將方差做開方后得到的值則和隨機(jī)變量具有相同的量綱能犯,這就使得通過這個統(tǒng)計值來和原有隨機(jī)變量的取值進(jìn)行比較成為了可能,這個開方的結(jié)果稱為標(biāo)準(zhǔn)差犬耻。

變動系數(shù) Coefficient of variation

由于標(biāo)準(zhǔn)差與隨機(jī)變量的取值以及均值都具有相同的量綱踩晶,因此可以直接進(jìn)行比較,我們將標(biāo)準(zhǔn)差與均值的比值定義為變動系數(shù):

  • 標(biāo)準(zhǔn)差 / 均值 x 100%

變動系數(shù)比較了標(biāo)準(zhǔn)差與均值之間的關(guān)系枕磁,可以直觀的了解隨機(jī)變量取值的變動程度渡蜻。

隨機(jī)變量取值分布的形狀的度量

偏斜程度

在之前的內(nèi)容里曾提到了直方圖對于分布形狀的描述能力,最簡單對于分布形狀的一個描述就是總體取值的偏斜程度 Skewness计济,其不僅可以定性的描述為“左偏”茸苇,“右偏”,還可以通過定量的計算來獲得峭咒,其計算公式為:

  • Skewness = nΣ[(xi - x?) / s]3 / [(n - 1)(n - 2)]

其絕對值越大代表偏斜程度越高税弃,并且右偏結(jié)果為正值,左偏結(jié)果為負(fù)值凑队。當(dāng)數(shù)據(jù)右偏時则果,均值一般會大于中值幔翰,當(dāng)數(shù)據(jù)左偏時,均值會小于中值西壮,所以中值在數(shù)據(jù)偏斜程度比較高的時候可以比均值更好的衡量數(shù)據(jù)分布的位置遗增。

標(biāo)準(zhǔn)值 z-score

除了樣本集總體的分布情況外,對于每一個樣本的取值都可以通過定義一個 z-score款青,也稱標(biāo)準(zhǔn)值 standardized value 做修,來了解它在數(shù)據(jù)集中的相對位置,對于第 i 個樣本點抡草,其標(biāo)準(zhǔn)值為:

  • zi = (xi - x?) / s

標(biāo)準(zhǔn)值可以理解為樣本點的取值與均值的偏離程度可以用多少個標(biāo)準(zhǔn)差的值來衡量饰及,偉大的 Chebyshev 對于數(shù)據(jù)分布情況和標(biāo)準(zhǔn)值之間的關(guān)系給出了一個定理,使得我們可以大致的計算在均值附近的某一個范圍內(nèi)的數(shù)據(jù)分布的量:

At least 1 - 1 / z2 of the data values must be within z standard deviations of the mean, where z is any value greater than 1.

注意這個定理只針對 z ≥ 1 時才有效康震,但對于數(shù)據(jù)整體的分布形狀沒有要求燎含,對應(yīng)這個定理有:

  • z = 2 時,至少有 75% 的樣本取值落在均值附近正負(fù) 2 個標(biāo)準(zhǔn)差的范圍內(nèi)

  • z = 3 時腿短,至少有 89% 的樣本取值落在均值附近正負(fù) 3 個標(biāo)準(zhǔn)差的范圍內(nèi)

  • z = 4 時屏箍,至少有 94% 的樣本取值落在均值附近正負(fù) 4 個標(biāo)準(zhǔn)差的范圍內(nèi)

當(dāng)數(shù)據(jù)整體上呈對稱分布時,基于切比雪夫定理可以對于數(shù)據(jù)的分布情況給出一個經(jīng)驗法則 Empirical rule橘忱,即在對稱分布中:

  • 68% 的數(shù)據(jù)落在均值附近正負(fù) 1 個標(biāo)準(zhǔn)差的范圍內(nèi)

  • 95% 的數(shù)據(jù)落在均值附近正負(fù) 2 個標(biāo)準(zhǔn)差的范圍內(nèi)

  • 幾乎所有數(shù)據(jù)落在均值附近正負(fù) 3 個標(biāo)準(zhǔn)差的范圍內(nèi)

Symmetric distribution

異常值檢測

在數(shù)據(jù)集中如果出現(xiàn)了一個或多個數(shù)值極大或極小的異常值赴魁,就會對一些位置描述指標(biāo)的計算,如均值產(chǎn)生較大的影響钝诚,這些異常值應(yīng)該在數(shù)據(jù)分析的過程中予以檢查颖御,并酌情考慮剔除。常用的檢測標(biāo)準(zhǔn)為:

  • 根據(jù)經(jīng)驗法則敲长,對于對稱分布的數(shù)據(jù)郎嫁,當(dāng) z > 3 的數(shù)據(jù)可以考慮刪除

  • 利用四份位差:

    • 合理下限:Q1 - 1.5IQR = Q1 - 1.5(Q3 - Q1)

    • 合理上限:Q3 + 1.5IQR = Q3 + 1.5(Q3 - Q1)

數(shù)據(jù)的描述

有了前面的這些描述指標(biāo)秉继,可以通過以下 5 個數(shù)字來對一組數(shù)據(jù)進(jìn)行描述祈噪,簡稱 5 數(shù)描述法:

  • 最小值
  • 25 百分位值
  • 中值,也即50 百分位值
  • 75 百分位值
  • 最大值

這 5 個數(shù)字可以將即便很大的數(shù)據(jù)集做一個很好的劃分尚辑,如下圖所示:

5-number summary

更進(jìn)一步地辑鲤,在獲得了四分位差 Q3 - Q1 后,前面的 5 數(shù)描述法還可以使用盒型圖來可視化:

Box plot

在實際的數(shù)據(jù)分析中杠茬,在進(jìn)行均值和方差計算前可以先通過對于數(shù)字進(jìn)行排序后通過 5 數(shù)法和盒型圖來了解數(shù)據(jù)的分布情況月褥,并檢查異常值,之后再做進(jìn)一步的計算瓢喉。

協(xié)方差 Covariance

上述指標(biāo)的定義都是針對單一隨機(jī)變量的宁赤,而協(xié)方差衡量則可以衡量兩個隨機(jī)變量之間的線性相關(guān)性。對于隨機(jī)變量 x栓票,y 來說决左,

總體的協(xié)方差計算公式為:

  • Cov(x, y) = σx,y = Σ(xi - μx)(yi - μy) / N

樣本協(xié)方差計算公式為:

  • Cov(x, y) = sx,y = Σ(xi - x?)(yi - y?) / n - 1,其中 i = 1, ... , n,n - 1 是為了實現(xiàn)校正

從這個計算過程可知:

  • 協(xié)方差的絕對值越大代表兩個變量圍繞各自均值同步偏離的程度越大佛猛,也即線性相關(guān)性越強(qiáng)

  • 如果結(jié)果是正的惑芭,則代表加總項中相同方向變化的項多于相反方向變化的項,即總體上同時增加或減小

  • 如果結(jié)果是負(fù)值继找,則代表隨機(jī)變量的多個取值圍繞各自均值的變化方向總體上是相反的遂跟,加總項中常出現(xiàn)的是一個變量的取值在均值的一側(cè),而另一個變量的取值在均值的另一側(cè)婴渡。這里還可以參考 GRAYLAMB的回答

相關(guān)系數(shù) Correlation coefficient

盡管一定程度上協(xié)方差的絕對值對于相關(guān)性可以做一個判斷幻锁,但由于相關(guān)性的計算與相應(yīng)的變量的量綱有關(guān),因此同樣的一組數(shù)據(jù)边臼,采用不同的量綱計算得到的協(xié)方差的結(jié)果不同越败,因此為了消除掉量綱的影響,定義了相關(guān)系數(shù)硼瓣。例如當(dāng)其中一個變量為身高究飞,另外一個變量為體重時,協(xié)方差的量綱則難以被定義堂鲤。

總體的相關(guān)系數(shù)計算公式為:

  • ρx, y = σx,y / (σx σy)

兩個隨機(jī)變量樣本集中 x亿傅,y 的相關(guān)系數(shù)計算公式為:

  • rx, y= sx,y / (sx sy)

相關(guān)系數(shù)的計算剔除了兩個隨機(jī)變量各自的標(biāo)準(zhǔn)差在協(xié)方差中的影響,使得相關(guān)系數(shù)只衡量兩個隨機(jī)變量的多個取值圍繞各自均值的變化方向的相關(guān)性瘟栖,其取值范圍為 [-1, 1]:

  • 當(dāng) ρx, y = 1 時葵擎,說明在所有取值上兩個隨機(jī)變量圍繞均值的變化方向均相同,當(dāng) ρ = -1 時反之

  • 當(dāng) ρx, y = 0 或者非常接近 0 時半哟,說明兩個隨機(jī)變量不具有線性相關(guān)性或線性相關(guān)性較小酬滤。但這并不意味著這兩個隨機(jī)變量一定相互獨立,也可能具有其他的相關(guān)性寓涨,除此之外盯串,還要注意相關(guān)關(guān)系并不意味著因果關(guān)系

Near zero correlation coefficient only indicate weak linear correlation but by no means not related at all
  • 當(dāng) 0 < ρx, y < 1 時,說明兩個隨機(jī)變量的多個取值圍繞均值變化的方向有時是一致的戒良,有時是不一致的

再做一個類比体捏,在線性代數(shù)中已知兩個 n 維向量 ab糯崎,則有:

  • cosθ = a ? b / (||a||||b||) = Σaibi / (Σai2Σbi2)1/2

這個夾角也稱為余弦距離几缭,常被用來判定兩個向量之間的相關(guān)關(guān)系。仔細(xì)對比相關(guān)系數(shù)和余弦距離這兩個公式可以發(fā)現(xiàn)二者討論的其實是同一個問題:只需要將隨機(jī)變量 x 的取值結(jié)果向量化為 x沃呢,并令 a = x - x?年栓,如此則相關(guān)系數(shù)和余弦之間只間隔一個向量化的距離:

  • 當(dāng) cosθ = 1 時,夾角為 0°薄霜,對應(yīng)相關(guān)系數(shù)計算為 1某抓,二者共線且方向相同竿刁,此時完全正向線性相關(guān)

  • 當(dāng) cosθ = -1 時,夾角為 180°搪缨,對應(yīng)相關(guān)系數(shù)計算為 -1食拜,二者共線且方向相反,此時完全反向線性相關(guān)

  • 當(dāng) cosθ = 0 時副编,夾角為 90°负甸,對應(yīng)相關(guān)系數(shù)計算為 0,二者互相垂直痹届,線性無關(guān)

數(shù)學(xué)原理本身是不分學(xué)科和專業(yè)的呻待,它們被分離在不同的課本和學(xué)科內(nèi)是為了方便的在一個領(lǐng)域內(nèi)形成一個體系,但在理解數(shù)學(xué)的時候完全可以突破學(xué)科和課本的限制队腐,這樣才能形成一個更加廣闊的圖景蚕捉。

Spearman's rank correlation

相關(guān)系數(shù)也被稱為 Pearson's Correlation,以表彰 Karl Pearson 在統(tǒng)計領(lǐng)域所做出的貢獻(xiàn)柴淘。這個統(tǒng)計量在兩個變量不具有線性相關(guān)性時會忽視二者之間的關(guān)系迫淹,且其計算容易收到異常值的影響,為了克服這一缺點为严,引入了 Spearman's rank correlation敛熬,后者的計算方法為首先先將兩個變量按照數(shù)值大小進(jìn)行排序,在排序的基礎(chǔ)上再計算二者的相關(guān)系數(shù)第股。

決定系數(shù) Coefficient of Determination

這一部分是我自己做的一個擴(kuò)展应民,并非書上的內(nèi)容,為了方便查看放在了這里夕吻,不代表原書作者的觀點诲锹。

在實際的統(tǒng)計工作中,如果已知疑似具有線性關(guān)系的自變量 x 和因變量 y 的多個取值涉馅,我們可以通過最小二乘法來構(gòu)建一個線性回歸模型 ? = mx + b 來對新的 x 生成一個具有預(yù)測作用的 y 的取值归园。在這個過程中,我們可以通過最小平方誤差 MSE 來衡量模型的預(yù)測值與實際取值之間的差異控漠。

Sum of squared errors by predicting with regression

但假如我們只有一系列的 y 的值而沒有對應(yīng)的 x 的取值蔓倍,此時悬钳,如果需要構(gòu)建 y 的預(yù)測值盐捷,最好的辦法就是通過計算 y 的均值,并且用這個值來作為未來所有 y 值的預(yù)測值默勾。在這個過程中引入的誤差值如果在 x 與 y 具有線性關(guān)系的時候會大于上述回歸得到的誤差值碉渡。

Sum of squared errors by predicting with y average

這兩個誤差值之間的相對差異被成為決定系數(shù) Coefficient of Determination,因為這個值也是相關(guān)系數(shù) r 的平方母剥,因此也稱為 R2滞诺。對應(yīng)上面這個例子形导,R2 = (41.1879 - 13.7627) / 41.1879 = 0.6659,也即 R2 衡量了線性回歸在 y 的預(yù)測過程中對于誤差的減少的量习霹。

R-squared tells us what percent of the prediction error in the y variable is eliminated when we use least-squares regression on the x variable.

如果我們仔細(xì)觀察上述兩個計算過程朵耕,就可以知道針對 y 均值的計算過程實際上獲取的是 y 的方差值,或變動值淋叶,因此阎曹,我們也可以說 R2 衡量的是 x 值的變動情況對于 y 的變動情況的影響。

How much of the total variation of y is determined/described by the variation in x.

免責(zé)聲明

我寫這個筆記是為了系統(tǒng)的復(fù)習(xí)概率論中的一些概念煞檩,閱讀的是 Statistics for Business and Economics, 12th Edition 英文原版处嫌,這是一本非常經(jīng)典的參考書,毫無保留的滿分推薦斟湃。盡管書名暗示了是在商業(yè)和經(jīng)濟(jì)學(xué)中的統(tǒng)計學(xué)熏迹,但根本的統(tǒng)計學(xué)知識是不變量,并且和很多優(yōu)秀的原版書一樣凝赛,作者時刻注意用實例來講解統(tǒng)計學(xué)概念注暗,基本上每一個新的概念的定義都建立在日常生活的實例的基礎(chǔ)上,在此基礎(chǔ)上還保留了精美的排版和精心設(shè)計的插圖墓猎,十分便于理解友存。

筆記最重要的一個目的就是記錄者復(fù)習(xí)的重要資料,如果能對別人也有所幫助那就是額外的獎賞了陶衅,所以為了復(fù)習(xí)方便我擅自截取了書中的很多插圖屡立,這些插圖僅限于個人學(xué)習(xí)使用。其他人請勿直接轉(zhuǎn)載搀军,如轉(zhuǎn)載請刪除插圖并附帶這則免責(zé)聲明膨俐,否則由此而產(chǎn)生的版權(quán)問題,請轉(zhuǎn)載者自行承擔(dān)罩句。

參考閱讀

  1. R squared intuition
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末焚刺,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子门烂,更是在濱河造成了極大的恐慌乳愉,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件屯远,死亡現(xiàn)場離奇詭異蔓姚,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)慨丐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進(jìn)店門坡脐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人房揭,你說我怎么就攤上這事备闲∩味耍” “怎么了?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵恬砂,是天一觀的道長咧纠。 經(jīng)常有香客問我,道長泻骤,這世上最難降的妖魔是什么惧盹? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮瞪讼,結(jié)果婚禮上钧椰,老公的妹妹穿的比我還像新娘。我一直安慰自己符欠,他們只是感情好嫡霞,可當(dāng)我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著希柿,像睡著了一般诊沪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上曾撤,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天端姚,我揣著相機(jī)與錄音,去河邊找鬼挤悉。 笑死渐裸,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的装悲。 我是一名探鬼主播昏鹃,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼诀诊!你這毒婦竟也來了洞渤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤属瓣,失蹤者是張志新(化名)和其女友劉穎载迄,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抡蛙,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡护昧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了溜畅。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捏卓。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖慈格,靈堂內(nèi)的尸體忽然破棺而出怠晴,到底是詐尸還是另有隱情,我是刑警寧澤浴捆,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布蒜田,位于F島的核電站,受9級特大地震影響选泻,放射性物質(zhì)發(fā)生泄漏冲粤。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一页眯、第九天 我趴在偏房一處隱蔽的房頂上張望梯捕。 院中可真熱鬧,春花似錦窝撵、人聲如沸傀顾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽短曾。三九已至,卻和暖如春赐劣,著一層夾襖步出監(jiān)牢的瞬間嫉拐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工魁兼, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留婉徘,地道東北人。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓咐汞,卻偏偏與公主長得像判哥,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子碉考,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容