數(shù)據(jù)科學(xué)家和分析師的41個統(tǒng)計學(xué)問題

轉(zhuǎn)自數(shù)據(jù)派THU 閔黎盧苗苗?原文轉(zhuǎn)自https://www.analyticsvidhya.com/blog/2017/05/41-questions-on-statisitics-data-scientists-analysts/

統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)和任何數(shù)據(jù)分析的基礎(chǔ)担孔。良好的統(tǒng)計學(xué)知識可以幫助數(shù)據(jù)分析師做出正確的商業(yè)決策戴卜。一方面，描述性統(tǒng)計幫助我們通過數(shù)據(jù)的集中趨勢和方差了解數(shù)據(jù)及其屬性。另一方面，推斷性統(tǒng)計幫助我們從給定的數(shù)據(jù)樣本中推斷總體的屬性胁赢。了解描述性和推斷性統(tǒng)計學(xué)知識對于立志成為數(shù)據(jù)科學(xué)家或分析師至關(guān)重要铐拐。

為了幫助您提高統(tǒng)計學(xué)知識徘键，我們進(jìn)行了這次實踐測試。測試涉及描述性和推斷性統(tǒng)計遍蟋。測試題提供了答案和解釋吹害，以防你遇到卡殼的問題。

如果您錯過了測試虚青，請在閱讀答案之前嘗試解決問題它呀。

總得分

以下是測試得分的分布情況，幫助您評估您的測試表現(xiàn)棒厘。

Mode Score：25

您可以訪問這里（https://datahack.analyticsvidhya.com/contest/skilltest-statistics-3/lb）查看最終成績纵穿。

超過450人參加了這次測試，獲得的最高分是37分奢人。以下是一些關(guān)于分?jǐn)?shù)分布的統(tǒng)計數(shù)據(jù)：

平均得分：20.40

得分中位數(shù)：23

得分眾數(shù)：25

問題與答案

1）哪些統(tǒng)計方法用來度量數(shù)據(jù)的集中趨勢句惯？

A）平均值和正態(tài)分布

B）平均值，中位數(shù)和眾數(shù)

C）眾數(shù)，Alpha和極差

D）標(biāo)準(zhǔn)差结洼，極差和平均值

E）中位數(shù)，極差和正態(tài)分布

答案：（B）

平均值，中位數(shù)和眾數(shù)是分析數(shù)據(jù)集中趨勢的三種統(tǒng)計方法。我們使用這些測量方法來查找數(shù)據(jù)集的中心值赫冬，以及總結(jié)整個數(shù)據(jù)集补鼻。

2）給出5個數(shù)字：（5,10,15,5,15）硼婿，求單項數(shù)據(jù)與平均值之間的離差的和。

A）10

B）25

C）50

D）0

E）以上都沒有

答案：（D）

單項數(shù)據(jù)的離差之和始終為0。

3）每年進(jìn)行一次考試。考試的平均分為150分，標(biāo)準(zhǔn)差為20。如果Ravi的Z值為1.50，他的得分是多少角塑？

A）180

B）130

C）30

D）150

E）以上都沒有

答案：（A）

X =μ+Zσ窒朋，其中μ是平均值拭宁，σ是標(biāo)準(zhǔn)差彩匕，X是我們計算的分?jǐn)?shù)袜漩。因此X = 150 + 20 * 1.5 = 180

4）如果數(shù)據(jù)集中的單項數(shù)值發(fā)生變化座掘，則以下集中趨勢中的哪個測量值一定會發(fā)生變化形真？

A）平均值

B）中位數(shù)

C）眾數(shù)

D）上述所有

答案：（A）

如果我們改動數(shù)據(jù)集中的任何值裕便，數(shù)據(jù)集的平均值一定會改變。因為平均值是由數(shù)據(jù)集中的所有值匯總求得的，所以數(shù)據(jù)集中的每個值都對平均值起作用庆揩。中位數(shù)和眾數(shù)可能會改變锈拨，也可能不會隨數(shù)據(jù)集中的單個值而改變。

5）下圖所示，標(biāo)尺的垂線上有六個數(shù)據(jù)點。

以下哪一條垂直線代表給定數(shù)據(jù)點的平均值违施？其中標(biāo)尺的比例單位相同辣往。

A）A

B）B

C）C

D）D

答案：（C）

從視覺上觀察數(shù)據(jù)點做判斷有點困難，我們可以通過簡單的取值來理解平均值。令A(yù)為1，B為2，C為3等。所示的數(shù)據(jù)值將變?yōu)閧1,1,1,4,5,6}，這意味著是18/6 = 3即C.

6）如果正偏態(tài)分布的中位數(shù)為50窝趣，則下列哪個選項是正確的幻馁？

A）平均值大于50

B）平均值小于50

C）眾數(shù)小于50

D）眾數(shù)大于50

E）A和C

F）B和D

答案：（E）

以下是負(fù)偏態(tài)分布稀拐，正態(tài)分布和正偏態(tài)分布曲線：

正如我們所看到的正偏態(tài)分布的曲線蜓洪，眾數(shù) <中位數(shù) <平均值。所以如果中位數(shù)是50，平均值將超過50济赎，眾數(shù)將小于50。

7）以下哪一項是下圖分布的中位數(shù)的可能值？

A）32

B）26

C）17

D）40

答案：（B）

為了回答這個問題，我們需要了解中位數(shù)的基本定義若未。中位數(shù)是其前后值大約一半的值隙疚。小于25的數(shù)值是（36 + 54 + 69 = 159）捅厂，大于30的值的數(shù)量是（55 + 43 + 25 + 22 + 17 = 162）。所以中位數(shù)應(yīng)該在25到30之間故硅。因此26是中位數(shù)的可能值徘层。

8）計算樣本標(biāo)準(zhǔn)差時跷敬，下列哪項陳述對于貝塞爾校正（Bessel’s correction）是正確的？

1.?不論對樣本數(shù)據(jù)執(zhí)行任何操作，都要使用貝塞爾校正。

2.?當(dāng)我們嘗試用樣本估計總體的標(biāo)準(zhǔn)差時，使用貝塞爾校正党巾。

3.?貝塞爾校正減少了標(biāo)準(zhǔn)差的偏差。

A）只有2

B）只有3

C）2和3

D）1和3

答案：（C）

與我們不應(yīng)該總是做貝塞爾校正這個普遍觀點相反。當(dāng)我們用樣本的標(biāo)準(zhǔn)差來估算總體的標(biāo)準(zhǔn)差時捻勉，基本上是要做貝塞爾校正的。貝塞爾校正可以修正樣本的標(biāo)準(zhǔn)差使其更接近總體的情況刀森。

9）如果公式中的分母使用（n-1）計算數(shù)據(jù)集的方差踱启，則下列哪個選項正確？

A）數(shù)據(jù)集是一個樣本

B）數(shù)據(jù)集是一個總體

C）數(shù)據(jù)集可以是樣本或總體

D）數(shù)據(jù)集來自人口普查

E）以上都不正確

答案：（A）

如果公式中的方差分母使用了n-1琐凭，則表示該集合是樣本脓恕。我們一般用離差的平方和除以n-1計算平均值刀脏，來估算總體的偏差。

當(dāng)我們使用總體數(shù)據(jù)時，可以直接將離差的平方和除以n而不是n-1。

10）[對錯判斷]標(biāo)準(zhǔn)差可以為負(fù)值裆装。

A）正確

B）錯誤

答案：（B）

以下是標(biāo)準(zhǔn)差的公式：

由于標(biāo)準(zhǔn)差是經(jīng)過平方肢娘，累加，然后再開方，因此標(biāo)準(zhǔn)差不可能是負(fù)的。

11）標(biāo)準(zhǔn)差對異常值是否穩(wěn)绞钏堋憔恳？

A）是

B）否

答案：（B）

按照上面的標(biāo)準(zhǔn)差公式，可以發(fā)現(xiàn)過高或過低的值會增加標(biāo)準(zhǔn)差安疗，盡管標(biāo)準(zhǔn)差與平均值非常不同。因此，異常值將影響標(biāo)準(zhǔn)差。

12）對于下面的正態(tài)分布，以下哪個選項成立？

σ1疫蔓，σ2和σ3分別表示曲線1况脆，2和3的標(biāo)準(zhǔn)差。

A）σ1>σ2>σ3

B）σ1<σ2<σ3

C）σ1=σ2=σ3

D）以上皆否

答案：（B）

從正態(tài)分布的定義來看看铆，我們知道所有這3種形狀的曲線下的面積為1徽鼎。曲線3更平坦，因而更分散（大多數(shù)值在40-160之間）弹惦，因此它的標(biāo)準(zhǔn)差最大否淤。類似地，曲線1的范圍非常窄棠隐，并且所有值都在80-120的小范圍內(nèi)石抡。因此，曲線1的標(biāo)準(zhǔn)差最小助泽。

13）在98％的置信區(qū)間啰扛，雙尾檢驗Z的臨界值是多少？

A）+/- 2.33

B）+/- 1.96

C）+/- 1.64

D）+/- 2.55

答案：（A）

我們需要查看Z值表來回答這個問題嗡贺。對于雙尾檢驗和98％置信區(qū)間隐解，我們應(yīng)該檢查Z值之前的面積為0.99，因為平均值的左側(cè)和右側(cè)分別是1％诫睬。因此煞茫，我們應(yīng)該檢查區(qū)域 > 0.99的Z值。該值為+/- 2.33。

14）[對錯判斷]標(biāo)準(zhǔn)正態(tài)分布的曲線是對稱的续徽，對稱軸為0蚓曼，曲線下面的面積為1。

A）正確

B）錯誤

答案：（A）

由正態(tài)分布曲線的定義得知炸宵，曲線下面的面積為1辟躏，對稱軸為零，平均值土全、中位數(shù)和眾數(shù)都等于0捎琐。平均值左側(cè)的面積等于平均值右側(cè)的面積。因此它是對稱的裹匙。

問題背景15-17

研究表明飘弧，在學(xué)習(xí)時聽音樂可以提高記憶力。為了證明這一點伸但，研究人員獲得了36名大學(xué)生的樣本肢执，給他們做了一個標(biāo)準(zhǔn)記憶測試，同時聽一些背景音樂惰匙。在正常情況下（沒有音樂）技掏，測試得到的平均分為25，標(biāo)準(zhǔn)偏差為6项鬼。實驗后樣本（有音樂）的平均分為28哑梳。

15）這種情況下的零假設(shè)是什么？

A）學(xué)習(xí)時聽音樂不會影響記憶力绘盟。

B）學(xué)習(xí)時聽音樂可能會使記憶力退化鸠真。

C）在學(xué)習(xí)中聽音樂可能會提高記憶力。

D）在學(xué)習(xí)期間聽音樂不會提高記憶力龄毡，還可能會使記憶力變得更糟吠卷。

答案：（D）

零假設(shè)通常是假設(shè)聲明，測量現(xiàn)象彼此之間沒有關(guān)系沦零。這里的零假設(shè)是聽音樂和記憶力的提高之間沒有關(guān)系祭隔。

16）什么是第一類錯誤？

A）學(xué)習(xí)時聽音樂可以提高記憶力路操，且該結(jié)論正確疾渴。

B）學(xué)習(xí)時聽音樂可以提高記憶力，但實際上記憶力并沒有提高寻拂。

C）學(xué)習(xí)時聽音樂不會提高記憶力程奠，但實際上記憶力提高了。

答案：（B）

第一類錯誤意味著當(dāng)假設(shè)的結(jié)論實際上為真時祭钉，我們卻拒絕了零假設(shè)瞄沙。這里的零假設(shè)是音樂不會提高記憶力。第一類錯誤是我們拒絕了零假設(shè)，也就是說結(jié)論顯示音樂提高了記憶力距境，但實際上它并沒有提高記憶力申尼。

17）執(zhí)行Z檢驗后，我們可以得出什么結(jié)論垫桂？

A）聽音樂不會提高記憶力师幕。

B）聽音樂會顯著提高記憶力。

C）信息不足以作任何結(jié)論诬滩。

D）以上都不對

答案：（B）

我們在給定的情況下進(jìn)行Z檢驗霹粥。我們知道零假設(shè)是聽音樂不會提高記憶力。

備擇假設(shè)是聽音樂確實提高了記憶力疼鸟。

在這種情況下后控，標(biāo)準(zhǔn)誤差即：

來自這個總體的樣本的平均值為28的Z值得分為：

從Z值表中可以看出，α= 0.05（單尾）的Z臨界值為1.65空镜。

因此浩淘，由于觀察到的Z值大于Z臨界值，所以我們可以拒絕零假設(shè)吴攒，可以下結(jié)論說聽音樂確實改善了記憶力张抄，置信度是95％。

18）研究者從他的分析中得出結(jié)論：安慰劑治療了艾滋病洼怔。他犯了哪一類的錯誤署惯？

A）第一類錯誤

B）第二類錯誤

C）以上都不是。研究人員沒有發(fā)生錯誤茴厉。

D）不能確定

答案：（D）

根據(jù)定義泽台，第一類錯誤是假設(shè)實際是真時什荣，拒絕零假設(shè)矾缓；第二類錯誤是假設(shè)實際是假時，接受零假設(shè)稻爬。在這種情況下定義錯誤嗜闻，我們需要首先定義零假設(shè)和備擇假設(shè)。

19）當(dāng)我們往數(shù)據(jù)中引入一些異常值時桅锄，置信區(qū)間會發(fā)生什么變化琉雳？

A）置信區(qū)間對異常值是穩(wěn)健的

B）置信區(qū)間隨著異常值的引入而增加。

C）隨著異常值的引入友瘤，置信區(qū)間將減少翠肘。

D）在這種情況下，我們無法確定置信區(qū)間辫秧。

答案：（B）

我們知道置信區(qū)間取決于數(shù)據(jù)的標(biāo)準(zhǔn)差束倍。如果我們將異常值引入數(shù)據(jù)，則標(biāo)準(zhǔn)差增加，因此置信區(qū)間也增加绪妹。

問題背景20-22

醫(yī)生想通過控制飲食來降低所有患者的血糖水平甥桂。他發(fā)現(xiàn)所有患者的血糖含量平均值為180，標(biāo)準(zhǔn)差為18邮旷。然后有9名患者開始控制飲食黄选，他觀察到樣本的平均值為175。現(xiàn)在婶肩，他正在考慮建議讓他的所有患者都去控制飲食办陷。

備注：置信區(qū)間99％。

20）平均值的標(biāo)準(zhǔn)誤差是多少律歼？

A）9

B）6

C）7.5

D）18

答案：（B）

平均值的標(biāo)準(zhǔn)誤差是標(biāo)準(zhǔn)差除以樣本量的平方根懂诗。即：

21）當(dāng)所有患者都開始控制飲食后，血糖平均值降至175以下的概率是多少苗膝？

A）20%

B）?25%

C）15%

D）12%

答案：（A）

這個問題需要計算出干預(yù)后所有患者的平均血糖值為175的概率殃恒，可以通過給定的平均值計算出Z值。

查Z值表辱揭，得到Z對應(yīng)的數(shù)值?= -0.833?0.2033离唐。

因此，如果每個人都開始控制飲食问窃，那么所有患者平均血糖值降至175的概率大約為20％亥鬓。

22）以下哪項陳述是正確的？

A）醫(yī)生有有效的證據(jù)證明控制飲食可以降低血糖水平域庇。

B）醫(yī)生沒有足夠的證據(jù)證明控制飲食能夠降低血糖水平嵌戈。

C）如果醫(yī)生用同樣的方法讓所有患者控制飲食，那么平均血糖將會降至160以下听皿。

答案：（B）

我們需要核實是否有足夠的證據(jù)來拒絕零假設(shè)熟呛。零假設(shè)是控制飲食對血糖沒有影響。這是一個雙尾檢驗尉姨。雙尾檢驗的Z臨界值為±2.58庵朝。

我們計算出的Z值是-0.833。

由于Z值 < Z臨界值又厉，因此我們沒有足夠的證據(jù)證明控制飲食能夠降低血糖九府。

問題背景23-25

一位研究人員正在試圖檢驗兩種不同教學(xué)方法的效果。他把20名學(xué)生分成兩組覆致，每組10人侄旬。對于第1組，教學(xué)方法是使用有趣的例子煌妈。對于第2組儡羔，教學(xué)方法是使用軟件來幫助學(xué)生學(xué)習(xí)婆排。兩組學(xué)生經(jīng)過20分鐘的授課后，所有學(xué)生進(jìn)行了考試笔链。

我們想計算兩組學(xué)生的考試得分是否有顯著的差異段只。

已知如下信息：

??α= 0.05，雙尾檢驗鉴扫。

??第1組的測試平均分?jǐn)?shù)= 10

??第2組的測試平均分?jǐn)?shù)= 7

??標(biāo)準(zhǔn)誤差= 0.94

23）?t-統(tǒng)計量的值是什么赞枕？

A）3.191

B）?3.395

C）不能確定

D）以上都不是

答案：（A）

t統(tǒng)計量是指兩組之間相差多少個標(biāo)準(zhǔn)誤差。

=（10-7）/ 0.94 = 3.191

24）兩組的考試得分是否有顯著差異坪创？

A）有

B）沒有

答案：（A）

零假設(shè)是兩組之間沒有差異炕婶，而被擇假設(shè)是兩組之間有顯著差異。

在α= 0.05條件下的雙尾檢驗的t臨界值為±2.101莱预。得到t統(tǒng)計量為3.191柠掂。由于t統(tǒng)計量大于t臨界值，因此我們可以拒絕零假設(shè)依沮，認(rèn)為這兩組在95％的置信區(qū)間上有顯著差異涯贞。

25) 考試得分的變異性在多大比例上可由教學(xué)方法不同來解釋？

A) 36.13

B) 45.21

C) 40.33

D) 32.97

答案：（A）

R2的值給出了分?jǐn)?shù)變異性的百分比危喉。R2的公式如下：

在本題中宋渔，自由度是10 + 10 -2，因為兩組各有10人辜限，所以自由度是18皇拣。

26）[對錯判斷] F統(tǒng)計量不能為負(fù)。

A）正確

B）錯誤

答案：（A）

F統(tǒng)計量是我們對不同組進(jìn)行方差分析薄嫡，了解不同組之間的差異時得到的值氧急。 F統(tǒng)計量是組間變異與組內(nèi)變異的比值。

下面是F統(tǒng)計量的公式：

由于分子和分母具有平方項毫深，因此F統(tǒng)計量不能為負(fù)吩坝。

27）下列哪張圖具有很強(qiáng)的正相關(guān)性？

答案：（B）

強(qiáng)正相關(guān)需要滿足下列條件：如果x增加费什，y也增加钾恢；如果x減少手素，y也減小鸳址。在這種情況下，線的斜率為正泉懦，數(shù)據(jù)點將顯示出明確的線性關(guān)系稿黍。選項B顯示出很強(qiáng)的正相關(guān)關(guān)系。

28）兩個變量（Var1和Var2）之間的相關(guān)性為0.65崩哩。如果給Var1中的所有值加上2后巡球，相關(guān)系數(shù)將會_______言沐？

A）增加

B）減少

C）以上都沒有

答案：（C）

任一變量增加或減去一個恒定值，相關(guān)系數(shù)將保持不變酣栈。相關(guān)性的計算公式可以很容易地幫助我們理解這一點险胰。

如果我們給變量的所有值都加上一個常數(shù)值，則這個變量將發(fā)生相同的變化量矿筝，變量的差異將保持不變起便。因此，相關(guān)系數(shù)不會變化窖维。

29）據(jù)觀察發(fā)現(xiàn)榆综，數(shù)學(xué)考試成績與在學(xué)生在考試當(dāng)天進(jìn)行體育運動存在非常高的相關(guān)性。你能從中推斷出什么結(jié)論？

1.?高度相關(guān)意味著運動后考試成績會很高。

2.?相關(guān)性并不意味著因果關(guān)系炬太。

3.?相關(guān)性衡量了運動量與考試成績之間的線性關(guān)系的強(qiáng)度疾层。

A）只有1

B）1和3

C）2和3

D) 以上陳述都對

答案：（C）

雖然有時直覺上強(qiáng)相關(guān)性就表明因果關(guān)系，但實際上相關(guān)性并不意味著任何的因果推論镀琉。它只是告訴我們兩個變量之間的關(guān)系的強(qiáng)度。如果這兩個變量同時改變，那么它們之間存在高度的相關(guān)性水评。

30）如果數(shù)學(xué)考試成績與體育運動之間的相關(guān)系數(shù)（r）是0.86，那么用體育運動來解釋數(shù)學(xué)考試成績的變異性的百分比是多少媚送？

A）86%

B）74%

C）14%

D）26%

答案：（B）

變異性的百分比R2由相關(guān)系數(shù)的平方得到中燥，該比值可以解釋由一個變量引起另一個變量變異的比例。因此塘偎，用運動解釋數(shù)學(xué)考試成績的變異性為0.862疗涉。

31）下列選項對于直方圖的描述，哪個是正確的吟秩？

A）上述直方圖是單峰的

B）上述直方圖是雙峰的

C）上述給出的不是直方圖

D）以上都不對

答案：（B）

上述直方圖是雙峰的咱扣。我們可以看到直方圖有兩個峰值，表示有兩個高頻涵防。

32）考慮回歸直線方程y = ax + b闹伪，其中a是斜率，b是截距壮池。如果我們知道斜率的值偏瓤，那么通過下列哪個選項，我們一定可以找到截距的值椰憋？

A）把值（0, 0）代入到回歸直線方程中

B）代入回歸擬合線上任意一點的值厅克，計算b的值

C）使用方程中的x和y的平均值，和a一起計算得到b

D）以上都不對

答案：（C）

使用普通最小二乘回歸法的直線始終通過x和y的平均值橙依。如果我們知道線上的任意一個點和斜率的值证舟，就可以很容易地找到截距硕旗。

33）當(dāng)我們向線性回歸模型引入更多的變量時會發(fā)生什么？

A）R2可能增加或保持不變女责，調(diào)整后的R2可能增加也可能減少漆枚。

B）R2可能增加也可能減少，但調(diào)整后的R2總是增加抵知。

C）當(dāng)為模型引入新的變量時浪读，R2和調(diào)整后的R2總是增加。

D）R2和調(diào)整后的R2都有可能增加或減少辛藻，依賴于引入的變量碘橘。

答案：（A）

R2總是增加或至少保持不變，因為使用普通最小二乘法吱肌，向模型添加更多的變量痘拆，方差的總和不會增加，R2也沒有減少氮墨。調(diào)整后的R2是在模型中根據(jù)預(yù)測變量的數(shù)量進(jìn)行調(diào)整后纺蛆，R2的修改版本。只有當(dāng)新的預(yù)測變量改進(jìn)了模型且超過預(yù)期時规揪，調(diào)整后的R2才會增加桥氏。當(dāng)預(yù)測變量對模型的改進(jìn)低于預(yù)期時，調(diào)整后的R2將減少猛铅。

34）在散點圖中字支，回歸線上面或下面的點到回歸線的垂直距離稱為____？

A）殘差

B）預(yù)測誤差

C）預(yù)測

D）A和B

E）以上都不是

答案：（D）

我們從圖中看到的線是從回歸線到點的垂直距離奸忽，這些距離被稱為殘差或預(yù)測誤差堕伪。

35）在最小二乘法的一元線性回歸方程中，相關(guān)系數(shù)與決定系數(shù)之間的關(guān)系是栗菜？

A）兩者無關(guān)

B）決定系數(shù)是相關(guān)系數(shù)的平方

C）決定系數(shù)是相關(guān)系數(shù)的平方根

D）?兩者都是相同的

答案：（B）

決定系數(shù)是R2欠雌，告訴我們自變量解釋因變量的變異程度，也是相關(guān)系數(shù)的平方疙筹。在多元回歸的情況下富俄，R2也可表示成解釋方差之和與方差總和的比值。

36）顯著性水平與置信度之間的關(guān)系是什么而咆？

A）顯著性水平=置信度

B）顯著性水平= 1-置信度

C）顯著性水平= 1 /置信度

D）顯著性水平= sqrt（1 - 置信度）

答案：（B）

顯著性水平就是1-置信度霍比。如果顯著性水平為0.05，那么相應(yīng)的置信度為95％或0.95翘盖。顯著性水平就是當(dāng)零假設(shè)為真時桂塞，獲得極端值或超過極端值的結(jié)果的概率。置信區(qū)間是總體參數(shù)可能值的范圍馍驯，如總體平均值阁危。例如，如果你在95％的置信區(qū)間內(nèi)計算出冰淇淋的平均價格汰瘫，那么說明你有95％的信心認(rèn)為這個平均價格包含了所有冰淇淋的真實平均價格狂打。

顯著性水平和置信度在正態(tài)分布中是互補的。

37）[對錯判斷]?假設(shè)給定一個變量V以及其平均值和中位數(shù)混弥。基于這些值趴乡，你可以判斷出變量“V”是有偏的。

平均值（V）>中位數(shù)（V）

A）正確

B）錯誤

答案：（B）

因為沒有提到變量V的分布類型蝗拿，我們不能肯定地說V是有偏的晾捏。

38）普通最小二乘法（OLS）線性回歸方程得到的回歸線試圖____？

A）通過盡可能多的點

B）通過盡可能少的點

C）最小化所觸及的點數(shù)

D）最小化點到回歸線的距離的平方

答案：（D）

回歸線嘗試最小化點到回歸線之間的距離的平方哀托。根據(jù)定義惦辛，普通最小二乘法回歸方程具有誤差的平方的最小和。這意味著殘差的平方和也應(yīng)該是最小化的仓手。這條回歸線可能會也可能不會通過最多的數(shù)據(jù)點胖齐。最常見的情況是，當(dāng)數(shù)據(jù)有很多離群值或線性關(guān)系不是非常強(qiáng)的時候嗽冒，回歸線不是通過所有的點呀伙，而是盡量減少通過的點的誤差平方和。

39）下表是一個線性回歸方程（Y = 5X＋40）添坊。

以下哪一項是該線性方程模型的MAE（平均絕對誤差）剿另？

A）8.4

B）10.29

C）42.5

D）以上都不是

答案：（A）

為了計算本題中的平均絕對誤差，我們首先用給定的方程計算Y值贬蛙，然后計算相對于實際Y值的絕對誤差驰弄。那么這個絕對誤差的平均值將是平均絕對誤差。下表總結(jié)了這些值速客。

40）對體重（y）和身高（x）進(jìn)行回歸分析得出以下最小二乘直線：y = 120 + 5x戚篙。這意味著如果身高增加1英寸，則預(yù)期的體重將溺职？

A）增加1磅

B）增加5磅

C）增加125磅

D）以上都不是

答案：（B）

觀察給定方程y = 120 + 5x岔擂，如果身高增加1個單位，則體重將增加5磅浪耘。因為截距120是不變的乱灵，不會貢獻(xiàn)差異。

41）[對錯判斷]?皮爾森（Pearson）相關(guān)性捕捉了兩個變量之間的線性依賴關(guān)系七冲，而斯皮爾曼（Spearman）相關(guān)性捕捉的是兩個變量之間的單調(diào)相關(guān)關(guān)系痛倚。

A）正確

B）錯誤

答案：（A）

該表述正確。皮爾森（Pearson）相關(guān)性評估了兩個連續(xù)變量之間的線性相關(guān)關(guān)系澜躺。當(dāng)一個變量的變化與另一個變量的變化成比例時蝉稳，相關(guān)關(guān)系是線性的抒蚜。

而斯皮爾曼（Spearman）相關(guān)性是評價單調(diào)相關(guān)關(guān)系。單調(diào)相關(guān)關(guān)系是兩個變量共同變化耘戚，但是不一定以固定的比例變化嗡髓。

最后編輯于：2017.12.10 05:26:24

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市收津，隨后出現(xiàn)的幾起案子饿这，更是在濱河造成了極大的恐慌，老刑警劉巖撞秋，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件长捧，死亡現(xiàn)場離奇詭異，居然都是意外死亡吻贿，警方通過查閱死者的電腦和手機(jī)串结，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來廓八，“玉大人奉芦，你說我怎么就攤上這事【珲澹” “怎么了声功？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長宠叼。經(jīng)常有香客問我先巴，道長，這世上最難降的妖魔是什么冒冬？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任伸蚯，我火速辦了婚禮，結(jié)果婚禮上简烤，老公的妹妹穿的比我還像新娘剂邮。我一直安慰自己，他們只是感情好横侦，可當(dāng)我...
茶點故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布挥萌。她就那樣靜靜地躺著，像睡著了一般枉侧。火紅的嫁衣襯著肌膚如雪引瀑。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天榨馁，我揣著相機(jī)與錄音憨栽，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛屑柔，可吹牛的內(nèi)容都是我干的屡萤。我是一名探鬼主播，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼锯蛀，長吁一口氣：“原來是場噩夢啊……” “哼灭衷！你這毒婦竟也來了次慢？” 一聲冷哼從身側(cè)響起旁涤，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎迫像，沒想到半個月后劈愚，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,834評論 1贊 317
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡闻妓，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年菌羽，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片由缆。...
茶點故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡注祖，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出均唉，到底是詐尸還是另有隱情是晨，我是刑警寧澤，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布舔箭，位于F島的核電站罩缴，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏层扶。R本人自食惡果不足惜箫章，卻給世界環(huán)境...
茶點故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望镜会。院中可真熱鬧檬寂，春花似錦、人聲如沸戳表。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽扒袖。三九已至塞茅，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間季率，已是汗流浹背野瘦。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人鞭光。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓吏廉，卻偏偏與公主長得像，于是被迫代替她去往敵國和親惰许。傳聞我的和親對象是個殘疾皇子席覆，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,077評論 2贊 355

數(shù)據(jù)科學(xué)家和分析師的41個統(tǒng)計學(xué)問題

推薦閱讀更多精彩內(nèi)容