數(shù)據(jù)科學(xué)家和分析師的41個統(tǒng)計學(xué)問題

轉(zhuǎn)自數(shù)據(jù)派THU 閔黎 盧苗苗?原文轉(zhuǎn)自https://www.analyticsvidhya.com/blog/2017/05/41-questions-on-statisitics-data-scientists-analysts/

統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)和任何數(shù)據(jù)分析的基礎(chǔ)担孔。良好的統(tǒng)計學(xué)知識可以幫助數(shù)據(jù)分析師做出正確的商業(yè)決策戴卜。一方面,描述性統(tǒng)計幫助我們通過數(shù)據(jù)的集中趨勢和方差了解數(shù)據(jù)及其屬性。另一方面,推斷性統(tǒng)計幫助我們從給定的數(shù)據(jù)樣本中推斷總體的屬性胁赢。了解描述性和推斷性統(tǒng)計學(xué)知識對于立志成為數(shù)據(jù)科學(xué)家或分析師至關(guān)重要铐拐。

為了幫助您提高統(tǒng)計學(xué)知識徘键,我們進(jìn)行了這次實踐測試。測試涉及描述性和推斷性統(tǒng)計遍蟋。測試題提供了答案和解釋吹害,以防你遇到卡殼的問題。

如果您錯過了測試虚青,請在閱讀答案之前嘗試解決問題它呀。

總得分

以下是測試得分的分布情況,幫助您評估您的測試表現(xiàn)棒厘。

Mode Score:25

您可以訪問這里(https://datahack.analyticsvidhya.com/contest/skilltest-statistics-3/lb)查看最終成績纵穿。

超過450人參加了這次測試,獲得的最高分是37分奢人。以下是一些關(guān)于分?jǐn)?shù)分布的統(tǒng)計數(shù)據(jù):

平均得分:20.40

得分中位數(shù):23

得分眾數(shù):25

問題與答案

1)哪些統(tǒng)計方法用來度量數(shù)據(jù)的集中趨勢句惯?

A)平均值和正態(tài)分布

B)平均值,中位數(shù)和眾數(shù)

C)眾數(shù),Alpha和極差

D)標(biāo)準(zhǔn)差结洼,極差和平均值

E)中位數(shù),極差和正態(tài)分布

答案:(B)

平均值,中位數(shù)和眾數(shù)是分析數(shù)據(jù)集中趨勢的三種統(tǒng)計方法。 我們使用這些測量方法來查找數(shù)據(jù)集的中心值赫冬,以及總結(jié)整個數(shù)據(jù)集补鼻。

2)給出5個數(shù)字:(5,10,15,5,15)硼婿,求單項數(shù)據(jù)與平均值之間的離差的和。

A)10

B)25

C)50

D)0

E)以上都沒有

答案:(D)

單項數(shù)據(jù)的離差之和始終為0。

3)每年進(jìn)行一次考試。 考試的平均分為150分,標(biāo)準(zhǔn)差為20。如果Ravi的Z值為1.50,他的得分是多少角塑?

A)180

B)130

C)30

D)150

E)以上都沒有

答案:(A)

X =μ+Zσ窒朋,其中μ是平均值拭宁,σ是標(biāo)準(zhǔn)差彩匕,X是我們計算的分?jǐn)?shù)袜漩。 因此X = 150 + 20 * 1.5 = 180

4)如果數(shù)據(jù)集中的單項數(shù)值發(fā)生變化座掘,則以下集中趨勢中的哪個測量值一定會發(fā)生變化形真?

A)平均值

B)中位數(shù)

C)眾數(shù)

D)上述所有

答案:(A)

如果我們改動數(shù)據(jù)集中的任何值裕便,數(shù)據(jù)集的平均值一定會改變。 因為平均值是由數(shù)據(jù)集中的所有值匯總求得的,所以數(shù)據(jù)集中的每個值都對平均值起作用庆揩。 中位數(shù)和眾數(shù)可能會改變锈拨,也可能不會隨數(shù)據(jù)集中的單個值而改變。

5)下圖所示,標(biāo)尺的垂線上有六個數(shù)據(jù)點。

以下哪一條垂直線代表給定數(shù)據(jù)點的平均值违施?其中標(biāo)尺的比例單位相同辣往。

A)A

B)B

C)C

D)D

答案:(C)

從視覺上觀察數(shù)據(jù)點做判斷有點困難, 我們可以通過簡單的取值來理解平均值。 令A(yù)為1,B為2,C為3等。 所示的數(shù)據(jù)值將變?yōu)閧1,1,1,4,5,6},這意味著是18/6 = 3即C.

6)如果正偏態(tài)分布的中位數(shù)為50窝趣,則下列哪個選項是正確的幻馁?

A)平均值大于50

B)平均值小于50

C)眾數(shù)小于50

D)眾數(shù)大于50

E)A和C

F)B和D

答案:(E)

以下是負(fù)偏態(tài)分布稀拐,正態(tài)分布和正偏態(tài)分布曲線:

正如我們所看到的正偏態(tài)分布的曲線蜓洪,眾數(shù) <中位數(shù) <平均值。 所以如果中位數(shù)是50,平均值將超過50济赎,眾數(shù)將小于50。

7)以下哪一項是下圖分布的中位數(shù)的可能值?


A)32

B)26

C)17

D)40

答案:(B)

為了回答這個問題,我們需要了解中位數(shù)的基本定義若未。 中位數(shù)是其前后值大約一半的值隙疚。 小于25的數(shù)值是(36 + 54 + 69 = 159)捅厂,大于30的值的數(shù)量是(55 + 43 + 25 + 22 + 17 = 162)。 所以中位數(shù)應(yīng)該在25到30之間故硅。因此26是中位數(shù)的可能值徘层。

8)計算樣本標(biāo)準(zhǔn)差時跷敬,下列哪項陳述對于貝塞爾校正(Bessel’s correction)是正確的?

1.?不論對樣本數(shù)據(jù)執(zhí)行任何操作,都要使用貝塞爾校正。

2.?當(dāng)我們嘗試用樣本估計總體的標(biāo)準(zhǔn)差時,使用貝塞爾校正党巾。

3.?貝塞爾校正減少了標(biāo)準(zhǔn)差的偏差。

A)只有2

B)只有3

C)2和3

D)1和3

答案:(C)

與我們不應(yīng)該總是做貝塞爾校正這個普遍觀點相反。 當(dāng)我們用樣本的標(biāo)準(zhǔn)差來估算總體的標(biāo)準(zhǔn)差時捻勉,基本上是要做貝塞爾校正的。貝塞爾校正可以修正樣本的標(biāo)準(zhǔn)差使其更接近總體的情況刀森。

9)如果公式中的分母使用(n-1)計算數(shù)據(jù)集的方差踱启,則下列哪個選項正確?

A)數(shù)據(jù)集是一個樣本

B)數(shù)據(jù)集是一個總體

C)數(shù)據(jù)集可以是樣本或總體

D)數(shù)據(jù)集來自人口普查

E)以上都不正確

答案:(A)

如果公式中的方差分母使用了n-1琐凭,則表示該集合是樣本脓恕。 我們一般用離差的平方和除以n-1計算平均值刀脏,來估算總體的偏差。

當(dāng)我們使用總體數(shù)據(jù)時,可以直接將離差的平方和除以n而不是n-1。

10)[對錯判斷]標(biāo)準(zhǔn)差可以為負(fù)值裆装。

A)正確

B)錯誤

答案:(B)

以下是標(biāo)準(zhǔn)差的公式:

由于標(biāo)準(zhǔn)差是經(jīng)過平方肢娘,累加,然后再開方,因此標(biāo)準(zhǔn)差不可能是負(fù)的。

11)標(biāo)準(zhǔn)差對異常值是否穩(wěn)绞钏堋憔恳?

A)是

B)否

答案:(B)

按照上面的標(biāo)準(zhǔn)差公式,可以發(fā)現(xiàn)過高或過低的值會增加標(biāo)準(zhǔn)差安疗,盡管標(biāo)準(zhǔn)差與平均值非常不同。 因此,異常值將影響標(biāo)準(zhǔn)差。

12)對于下面的正態(tài)分布,以下哪個選項成立?

σ1疫蔓,σ2和σ3分別表示曲線1况脆,2和3的標(biāo)準(zhǔn)差。

A)σ1>σ2>σ3

B)σ1<σ2<σ3

C)σ1=σ2=σ3

D)以上皆否

答案:(B)

從正態(tài)分布的定義來看看铆,我們知道所有這3種形狀的曲線下的面積為1徽鼎。 曲線3更平坦,因而更分散(大多數(shù)值在40-160之間)弹惦,因此它的標(biāo)準(zhǔn)差最大否淤。 類似地,曲線1的范圍非常窄棠隐,并且所有值都在80-120的小范圍內(nèi)石抡。 因此,曲線1的標(biāo)準(zhǔn)差最小助泽。

13)在98%的置信區(qū)間啰扛,雙尾檢驗Z的臨界值是多少?

A)+/- 2.33

B)+/- 1.96

C)+/- 1.64

D)+/- 2.55

答案:(A)

我們需要查看Z值表來回答這個問題嗡贺。 對于雙尾檢驗和98%置信區(qū)間隐解,我們應(yīng)該檢查Z值之前的面積為0.99,因為平均值的左側(cè)和右側(cè)分別是1%诫睬。 因此煞茫,我們應(yīng)該檢查區(qū)域 > 0.99的Z值。 該值為+/- 2.33。

14)[對錯判斷]標(biāo)準(zhǔn)正態(tài)分布的曲線是對稱的续徽,對稱軸為0蚓曼,曲線下面的面積為1。

A)正確

B)錯誤

答案:(A)

由正態(tài)分布曲線的定義得知炸宵,曲線下面的面積為1辟躏,對稱軸為零, 平均值土全、中位數(shù)和眾數(shù)都等于0捎琐。平均值左側(cè)的面積等于平均值右側(cè)的面積。 因此它是對稱的裹匙。

問題背景15-17

研究表明飘弧,在學(xué)習(xí)時聽音樂可以提高記憶力。 為了證明這一點伸但,研究人員獲得了36名大學(xué)生的樣本肢执,給他們做了一個標(biāo)準(zhǔn)記憶測試,同時聽一些背景音樂惰匙。 在正常情況下(沒有音樂)技掏,測試得到的平均分為25,標(biāo)準(zhǔn)偏差為6项鬼。實驗后樣本(有音樂)的平均分為28哑梳。

15)這種情況下的零假設(shè)是什么?

A)學(xué)習(xí)時聽音樂不會影響記憶力绘盟。

B)學(xué)習(xí)時聽音樂可能會使記憶力退化鸠真。

C)在學(xué)習(xí)中聽音樂可能會提高記憶力。

D)在學(xué)習(xí)期間聽音樂不會提高記憶力龄毡,還可能會使記憶力變得更糟吠卷。

答案:(D)

零假設(shè)通常是假設(shè)聲明,測量現(xiàn)象彼此之間沒有關(guān)系沦零。 這里的零假設(shè)是聽音樂和記憶力的提高之間沒有關(guān)系祭隔。

16)什么是第一類錯誤?

A)學(xué)習(xí)時聽音樂可以提高記憶力路操,且該結(jié)論正確疾渴。

B)學(xué)習(xí)時聽音樂可以提高記憶力,但實際上記憶力并沒有提高寻拂。

C)學(xué)習(xí)時聽音樂不會提高記憶力程奠,但實際上記憶力提高了。

答案:(B)

第一類錯誤意味著當(dāng)假設(shè)的結(jié)論實際上為真時祭钉,我們卻拒絕了零假設(shè)瞄沙。 這里的零假設(shè)是音樂不會提高記憶力。 第一類錯誤是我們拒絕了零假設(shè),也就是說結(jié)論顯示音樂提高了記憶力距境,但實際上它并沒有提高記憶力申尼。

17)執(zhí)行Z檢驗后,我們可以得出什么結(jié)論垫桂?

A)聽音樂不會提高記憶力师幕。

B)聽音樂會顯著提高記憶力。

C)信息不足以作任何結(jié)論诬滩。

D)以上都不對

答案:(B)

我們在給定的情況下進(jìn)行Z檢驗霹粥。 我們知道零假設(shè)是聽音樂不會提高記憶力。

備擇假設(shè)是聽音樂確實提高了記憶力疼鸟。

在這種情況下后控,標(biāo)準(zhǔn)誤差即:

來自這個總體的樣本的平均值為28的Z值得分為:

從Z值表中可以看出,α= 0.05(單尾)的Z臨界值為1.65空镜。

因此浩淘,由于觀察到的Z值大于Z臨界值,所以我們可以拒絕零假設(shè)吴攒,可以下結(jié)論說聽音樂確實改善了記憶力张抄,置信度是95%。

18)研究者從他的分析中得出結(jié)論:安慰劑治療了艾滋病洼怔。 他犯了哪一類的錯誤署惯?

A)第一類錯誤

B)第二類錯誤

C)以上都不是。 研究人員沒有發(fā)生錯誤茴厉。

D)不能確定

答案:(D)

根據(jù)定義泽台,第一類錯誤是假設(shè)實際是真時什荣,拒絕零假設(shè)矾缓;第二類錯誤是假設(shè)實際是假時,接受零假設(shè)稻爬。 在這種情況下定義錯誤嗜闻,我們需要首先定義零假設(shè)和備擇假設(shè)。

19)當(dāng)我們往數(shù)據(jù)中引入一些異常值時桅锄,置信區(qū)間會發(fā)生什么變化琉雳?

A)置信區(qū)間對異常值是穩(wěn)健的

B)置信區(qū)間隨著異常值的引入而增加。

C)隨著異常值的引入友瘤,置信區(qū)間將減少翠肘。

D)在這種情況下,我們無法確定置信區(qū)間辫秧。

答案:(B)

我們知道置信區(qū)間取決于數(shù)據(jù)的標(biāo)準(zhǔn)差束倍。 如果我們將異常值引入數(shù)據(jù),則標(biāo)準(zhǔn)差增加,因此置信區(qū)間也增加绪妹。

問題背景20-22

醫(yī)生想通過控制飲食來降低所有患者的血糖水平甥桂。 他發(fā)現(xiàn)所有患者的血糖含量平均值為180,標(biāo)準(zhǔn)差為18邮旷。然后有9名患者開始控制飲食黄选,他觀察到樣本的平均值為175。現(xiàn)在婶肩,他正在考慮建議讓他的所有患者都去控制飲食办陷。

備注:置信區(qū)間99%。

20)平均值的標(biāo)準(zhǔn)誤差是多少律歼?

A)9

B)6

C)7.5

D)18

答案:(B)

平均值的標(biāo)準(zhǔn)誤差是標(biāo)準(zhǔn)差除以樣本量的平方根懂诗。即:

21)當(dāng)所有患者都開始控制飲食后,血糖平均值降至175以下的概率是多少苗膝?

A)20%

B)?25%

C)15%

D)12%

答案:(A)

這個問題需要計算出干預(yù)后所有患者的平均血糖值為175的概率殃恒, 可以通過給定的平均值計算出Z值。

查Z值表辱揭,得到Z對應(yīng)的數(shù)值?= -0.833?0.2033离唐。

因此,如果每個人都開始控制飲食问窃,那么所有患者平均血糖值降至175的概率大約為20%亥鬓。

22)以下哪項陳述是正確的?

A)醫(yī)生有有效的證據(jù)證明控制飲食可以降低血糖水平域庇。

B)醫(yī)生沒有足夠的證據(jù)證明控制飲食能夠降低血糖水平嵌戈。

C)如果醫(yī)生用同樣的方法讓所有患者控制飲食,那么平均血糖將會降至160以下听皿。

答案:(B)

我們需要核實是否有足夠的證據(jù)來拒絕零假設(shè)熟呛。 零假設(shè)是控制飲食對血糖沒有影響。 這是一個雙尾檢驗尉姨。 雙尾檢驗的Z臨界值為±2.58庵朝。

我們計算出的Z值是-0.833。

由于Z值 < Z臨界值又厉,因此我們沒有足夠的證據(jù)證明控制飲食能夠降低血糖九府。

問題背景23-25

一位研究人員正在試圖檢驗兩種不同教學(xué)方法的效果。 他把20名學(xué)生分成兩組覆致,每組10人侄旬。 對于第1組,教學(xué)方法是使用有趣的例子煌妈。 對于第2組儡羔,教學(xué)方法是使用軟件來幫助學(xué)生學(xué)習(xí)婆排。 兩組學(xué)生經(jīng)過20分鐘的授課后,所有學(xué)生進(jìn)行了考試笔链。

我們想計算兩組學(xué)生的考試得分是否有顯著的差異段只。

已知如下信息:

??α= 0.05,雙尾檢驗鉴扫。

??第1組的測試平均分?jǐn)?shù)= 10

??第2組的測試平均分?jǐn)?shù)= 7

??標(biāo)準(zhǔn)誤差= 0.94

23)?t-統(tǒng)計量的值是什么赞枕?

A)3.191

B)?3.395

C)不能確定

D)以上都不是

答案:(A)

t統(tǒng)計量是指兩組之間相差多少個標(biāo)準(zhǔn)誤差。

=(10-7)/ 0.94 = 3.191

24)兩組的考試得分是否有顯著差異坪创?

A)有

B)沒有

答案:(A)

零假設(shè)是兩組之間沒有差異炕婶,而被擇假設(shè)是兩組之間有顯著差異。

在α= 0.05條件下的雙尾檢驗的t臨界值為±2.101莱预。 得到t統(tǒng)計量為3.191柠掂。 由于t統(tǒng)計量大于t臨界值,因此我們可以拒絕零假設(shè)依沮,認(rèn)為這兩組在95%的置信區(qū)間上有顯著差異涯贞。

25) 考試得分的變異性在多大比例上可由教學(xué)方法不同來解釋?

A) 36.13

B) 45.21

C) 40.33

D) 32.97

答案:(A)

R2的值給出了分?jǐn)?shù)變異性的百分比危喉。R2的公式如下:

在本題中宋渔,自由度是10 + 10 -2,因為兩組各有10人辜限,所以自由度是18皇拣。

26)[對錯判斷] F統(tǒng)計量不能為負(fù)。

A)正確

B)錯誤

答案:(A)

F統(tǒng)計量是我們對不同組進(jìn)行方差分析薄嫡,了解不同組之間的差異時得到的值氧急。 F統(tǒng)計量是組間變異與組內(nèi)變異的比值。

下面是F統(tǒng)計量的公式:

由于分子和分母具有平方項毫深,因此F統(tǒng)計量不能為負(fù)吩坝。

27)下列哪張圖具有很強(qiáng)的正相關(guān)性?

答案:(B)

強(qiáng)正相關(guān)需要滿足下列條件:如果x增加费什,y也增加钾恢;如果x減少手素,y也減小鸳址。 在這種情況下,線的斜率為正泉懦,數(shù)據(jù)點將顯示出明確的線性關(guān)系稿黍。 選項B顯示出很強(qiáng)的正相關(guān)關(guān)系。

28)兩個變量(Var1和Var2)之間的相關(guān)性為0.65崩哩。 如果給Var1中的所有值加上2后巡球,相關(guān)系數(shù)將會_______言沐?

A)增加

B)減少

C)以上都沒有

答案:(C)

任一變量增加或減去一個恒定值,相關(guān)系數(shù)將保持不變酣栈。相關(guān)性的計算公式可以很容易地幫助我們理解這一點险胰。

如果我們給變量的所有值都加上一個常數(shù)值,則這個變量將發(fā)生相同的變化量矿筝,變量的差異將保持不變起便。 因此,相關(guān)系數(shù)不會變化窖维。

29)據(jù)觀察發(fā)現(xiàn)榆综,數(shù)學(xué)考試成績與在學(xué)生在考試當(dāng)天進(jìn)行體育運動存在非常高的相關(guān)性。 你能從中推斷出什么結(jié)論?

1.?高度相關(guān)意味著運動后考試成績會很高。

2.?相關(guān)性并不意味著因果關(guān)系炬太。

3.?相關(guān)性衡量了運動量與考試成績之間的線性關(guān)系的強(qiáng)度疾层。

A)只有1

B)1和3

C)2和3

D) 以上陳述都對

答案:(C)

雖然有時直覺上強(qiáng)相關(guān)性就表明因果關(guān)系,但實際上相關(guān)性并不意味著任何的因果推論镀琉。 它只是告訴我們兩個變量之間的關(guān)系的強(qiáng)度。 如果這兩個變量同時改變,那么它們之間存在高度的相關(guān)性水评。

30)如果數(shù)學(xué)考試成績與體育運動之間的相關(guān)系數(shù)(r)是0.86,那么用體育運動來解釋數(shù)學(xué)考試成績的變異性的百分比是多少媚送?

A)86%

B)74%

C)14%

D)26%

答案:(B)

變異性的百分比R2由相關(guān)系數(shù)的平方得到中燥, 該比值可以解釋由一個變量引起另一個變量變異的比例。 因此塘偎,用運動解釋數(shù)學(xué)考試成績的變異性為0.862疗涉。

31)下列選項對于直方圖的描述,哪個是正確的吟秩?

A)上述直方圖是單峰的

B)上述直方圖是雙峰的

C)上述給出的不是直方圖

D)以上都不對


答案:(B)

上述直方圖是雙峰的咱扣。 我們可以看到直方圖有兩個峰值,表示有兩個高頻涵防。

32)考慮回歸直線方程y = ax + b闹伪,其中a是斜率,b是截距壮池。 如果我們知道斜率的值偏瓤,那么通過下列哪個選項,我們一定可以找到截距的值椰憋?

A)把值(0, 0)代入到回歸直線方程中

B)代入回歸擬合線上任意一點的值厅克,計算b的值

C)使用方程中的x和y的平均值,和a一起計算得到b

D)以上都不對

答案:(C)

使用普通最小二乘回歸法的直線始終通過x和y的平均值橙依。 如果我們知道線上的任意一個點和斜率的值证舟,就可以很容易地找到截距硕旗。

33)當(dāng)我們向線性回歸模型引入更多的變量時會發(fā)生什么?

A)R2可能增加或保持不變女责,調(diào)整后的R2可能增加也可能減少漆枚。

B)R2可能增加也可能減少,但調(diào)整后的R2總是增加抵知。

C)當(dāng)為模型引入新的變量時浪读,R2和調(diào)整后的R2總是增加。

D)R2和調(diào)整后的R2都有可能增加或減少辛藻,依賴于引入的變量碘橘。

答案:(A)

R2總是增加或至少保持不變,因為使用普通最小二乘法吱肌,向模型添加更多的變量痘拆,方差的總和不會增加,R2也沒有減少氮墨。調(diào)整后的R2是在模型中根據(jù)預(yù)測變量的數(shù)量進(jìn)行調(diào)整后纺蛆,R2的修改版本。只有當(dāng)新的預(yù)測變量改進(jìn)了模型且超過預(yù)期時规揪,調(diào)整后的R2才會增加桥氏。當(dāng)預(yù)測變量對模型的改進(jìn)低于預(yù)期時,調(diào)整后的R2將減少猛铅。

34)在散點圖中字支,回歸線上面或下面的點到回歸線的垂直距離稱為____?


A)殘差

B)預(yù)測誤差

C)預(yù)測

D)A和B

E)以上都不是

答案:(D)

我們從圖中看到的線是從回歸線到點的垂直距離奸忽, 這些距離被稱為殘差或預(yù)測誤差堕伪。

35)在最小二乘法的一元線性回歸方程中,相關(guān)系數(shù)與決定系數(shù)之間的關(guān)系是栗菜?

A)兩者無關(guān)

B)決定系數(shù)是相關(guān)系數(shù)的平方

C)決定系數(shù)是相關(guān)系數(shù)的平方根

D)?兩者都是相同的

答案:(B)

決定系數(shù)是R2欠雌,告訴我們自變量解釋因變量的變異程度,也是相關(guān)系數(shù)的平方疙筹。 在多元回歸的情況下富俄,R2也可表示成解釋方差之和與方差總和的比值。

36)顯著性水平與置信度之間的關(guān)系是什么而咆?

A)顯著性水平=置信度

B)顯著性水平= 1-置信度

C)顯著性水平= 1 /置信度

D)顯著性水平= sqrt(1 - 置信度)

答案:(B)

顯著性水平就是1-置信度霍比。 如果顯著性水平為0.05,那么相應(yīng)的置信度為95%或0.95翘盖。顯著性水平就是當(dāng)零假設(shè)為真時桂塞,獲得極端值或超過極端值的結(jié)果的概率。 置信區(qū)間是總體參數(shù)可能值的范圍馍驯,如總體平均值阁危。 例如,如果你在95%的置信區(qū)間內(nèi)計算出冰淇淋的平均價格汰瘫,那么說明你有95%的信心認(rèn)為這個平均價格包含了所有冰淇淋的真實平均價格狂打。

顯著性水平和置信度在正態(tài)分布中是互補的。

37)[對錯判斷]?假設(shè)給定一個變量V以及其平均值和中位數(shù)混弥。 基于這些值趴乡,你可以判斷出變量“V”是有偏的。

平均值(V)>中位數(shù)(V)

A)正確

B)錯誤

答案:(B)

因為沒有提到變量V的分布類型蝗拿,我們不能肯定地說V是有偏的晾捏。

38)普通最小二乘法(OLS)線性回歸方程得到的回歸線試圖____?

A)通過盡可能多的點

B)通過盡可能少的點

C)最小化所觸及的點數(shù)

D)最小化點到回歸線的距離的平方

答案:(D)

回歸線嘗試最小化點到回歸線之間的距離的平方哀托。根據(jù)定義惦辛,普通最小二乘法回歸方程具有誤差的平方的最小和。 這意味著殘差的平方和也應(yīng)該是最小化的仓手。這條回歸線可能會也可能不會通過最多的數(shù)據(jù)點胖齐。最常見的情況是,當(dāng)數(shù)據(jù)有很多離群值或線性關(guān)系不是非常強(qiáng)的時候嗽冒,回歸線不是通過所有的點呀伙,而是盡量減少通過的點的誤差平方和。

39)下表是一個線性回歸方程(Y = 5X+40)添坊。

以下哪一項是該線性方程模型的MAE(平均絕對誤差)剿另?

A)8.4

B)10.29

C)42.5

D)以上都不是

答案:(A)

為了計算本題中的平均絕對誤差,我們首先用給定的方程計算Y值贬蛙,然后計算相對于實際Y值的絕對誤差驰弄。 那么這個絕對誤差的平均值將是平均絕對誤差。 下表總結(jié)了這些值速客。

40)對體重(y)和身高(x)進(jìn)行回歸分析得出以下最小二乘直線:y = 120 + 5x戚篙。 這意味著如果身高增加1英寸,則預(yù)期的體重將溺职?

A)增加1磅

B)增加5磅

C)增加125磅

D)以上都不是

答案:(B)

觀察給定方程y = 120 + 5x岔擂, 如果身高增加1個單位,則體重將增加5磅浪耘。因為截距120是不變的乱灵,不會貢獻(xiàn)差異。

41)[對錯判斷]?皮爾森(Pearson)相關(guān)性捕捉了兩個變量之間的線性依賴關(guān)系七冲,而斯皮爾曼(Spearman)相關(guān)性捕捉的是兩個變量之間的單調(diào)相關(guān)關(guān)系痛倚。

A)正確

B)錯誤

答案:(A)

該表述正確。皮爾森(Pearson)相關(guān)性評估了兩個連續(xù)變量之間的線性相關(guān)關(guān)系澜躺。 當(dāng)一個變量的變化與另一個變量的變化成比例時蝉稳,相關(guān)關(guān)系是線性的抒蚜。

而斯皮爾曼(Spearman)相關(guān)性是評價單調(diào)相關(guān)關(guān)系。 單調(diào)相關(guān)關(guān)系是兩個變量共同變化耘戚,但是不一定以固定的比例變化嗡髓。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市收津,隨后出現(xiàn)的幾起案子饿这,更是在濱河造成了極大的恐慌,老刑警劉巖撞秋,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件长捧,死亡現(xiàn)場離奇詭異,居然都是意外死亡吻贿,警方通過查閱死者的電腦和手機(jī)串结,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來廓八,“玉大人奉芦,你說我怎么就攤上這事【珲澹” “怎么了声功?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長宠叼。 經(jīng)常有香客問我先巴,道長,這世上最難降的妖魔是什么冒冬? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任伸蚯,我火速辦了婚禮,結(jié)果婚禮上简烤,老公的妹妹穿的比我還像新娘剂邮。我一直安慰自己,他們只是感情好横侦,可當(dāng)我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布挥萌。 她就那樣靜靜地躺著,像睡著了一般枉侧。 火紅的嫁衣襯著肌膚如雪引瀑。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天榨馁,我揣著相機(jī)與錄音憨栽,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛屑柔,可吹牛的內(nèi)容都是我干的屡萤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼锯蛀,長吁一口氣:“原來是場噩夢啊……” “哼灭衷!你這毒婦竟也來了次慢?” 一聲冷哼從身側(cè)響起旁涤,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎迫像,沒想到半個月后劈愚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡闻妓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年菌羽,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片由缆。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡注祖,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出均唉,到底是詐尸還是另有隱情是晨,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布舔箭,位于F島的核電站罩缴,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏层扶。R本人自食惡果不足惜箫章,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望镜会。 院中可真熱鬧檬寂,春花似錦、人聲如沸戳表。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽扒袖。三九已至塞茅,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間季率,已是汗流浹背野瘦。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人鞭光。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓吏廉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親惰许。 傳聞我的和親對象是個殘疾皇子席覆,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容