轉(zhuǎn)自數(shù)據(jù)派THU 閔黎 盧苗苗?原文轉(zhuǎn)自https://www.analyticsvidhya.com/blog/2017/05/41-questions-on-statisitics-data-scientists-analysts/
統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)和任何數(shù)據(jù)分析的基礎(chǔ)担孔。良好的統(tǒng)計學(xué)知識可以幫助數(shù)據(jù)分析師做出正確的商業(yè)決策戴卜。一方面,描述性統(tǒng)計幫助我們通過數(shù)據(jù)的集中趨勢和方差了解數(shù)據(jù)及其屬性。另一方面,推斷性統(tǒng)計幫助我們從給定的數(shù)據(jù)樣本中推斷總體的屬性胁赢。了解描述性和推斷性統(tǒng)計學(xué)知識對于立志成為數(shù)據(jù)科學(xué)家或分析師至關(guān)重要铐拐。
為了幫助您提高統(tǒng)計學(xué)知識徘键,我們進(jìn)行了這次實踐測試。測試涉及描述性和推斷性統(tǒng)計遍蟋。測試題提供了答案和解釋吹害,以防你遇到卡殼的問題。
如果您錯過了測試虚青,請在閱讀答案之前嘗試解決問題它呀。
總得分
以下是測試得分的分布情況,幫助您評估您的測試表現(xiàn)棒厘。
Mode Score:25
您可以訪問這里(https://datahack.analyticsvidhya.com/contest/skilltest-statistics-3/lb)查看最終成績纵穿。
超過450人參加了這次測試,獲得的最高分是37分奢人。以下是一些關(guān)于分?jǐn)?shù)分布的統(tǒng)計數(shù)據(jù):
平均得分:20.40
得分中位數(shù):23
得分眾數(shù):25
問題與答案
1)哪些統(tǒng)計方法用來度量數(shù)據(jù)的集中趨勢句惯?
A)平均值和正態(tài)分布
B)平均值,中位數(shù)和眾數(shù)
C)眾數(shù),Alpha和極差
D)標(biāo)準(zhǔn)差结洼,極差和平均值
E)中位數(shù),極差和正態(tài)分布
答案:(B)
平均值,中位數(shù)和眾數(shù)是分析數(shù)據(jù)集中趨勢的三種統(tǒng)計方法。 我們使用這些測量方法來查找數(shù)據(jù)集的中心值赫冬,以及總結(jié)整個數(shù)據(jù)集补鼻。
2)給出5個數(shù)字:(5,10,15,5,15)硼婿,求單項數(shù)據(jù)與平均值之間的離差的和。
A)10
B)25
C)50
D)0
E)以上都沒有
答案:(D)
單項數(shù)據(jù)的離差之和始終為0。
3)每年進(jìn)行一次考試。 考試的平均分為150分,標(biāo)準(zhǔn)差為20。如果Ravi的Z值為1.50,他的得分是多少角塑?
A)180
B)130
C)30
D)150
E)以上都沒有
答案:(A)
X =μ+Zσ窒朋,其中μ是平均值拭宁,σ是標(biāo)準(zhǔn)差彩匕,X是我們計算的分?jǐn)?shù)袜漩。 因此X = 150 + 20 * 1.5 = 180
4)如果數(shù)據(jù)集中的單項數(shù)值發(fā)生變化座掘,則以下集中趨勢中的哪個測量值一定會發(fā)生變化形真?
A)平均值
B)中位數(shù)
C)眾數(shù)
D)上述所有
答案:(A)
如果我們改動數(shù)據(jù)集中的任何值裕便,數(shù)據(jù)集的平均值一定會改變。 因為平均值是由數(shù)據(jù)集中的所有值匯總求得的,所以數(shù)據(jù)集中的每個值都對平均值起作用庆揩。 中位數(shù)和眾數(shù)可能會改變锈拨,也可能不會隨數(shù)據(jù)集中的單個值而改變。
5)下圖所示,標(biāo)尺的垂線上有六個數(shù)據(jù)點。
以下哪一條垂直線代表給定數(shù)據(jù)點的平均值违施?其中標(biāo)尺的比例單位相同辣往。
A)A
B)B
C)C
D)D
答案:(C)
從視覺上觀察數(shù)據(jù)點做判斷有點困難, 我們可以通過簡單的取值來理解平均值。 令A(yù)為1,B為2,C為3等。 所示的數(shù)據(jù)值將變?yōu)閧1,1,1,4,5,6},這意味著是18/6 = 3即C.
6)如果正偏態(tài)分布的中位數(shù)為50窝趣,則下列哪個選項是正確的幻馁?
A)平均值大于50
B)平均值小于50
C)眾數(shù)小于50
D)眾數(shù)大于50
E)A和C
F)B和D
答案:(E)
以下是負(fù)偏態(tài)分布稀拐,正態(tài)分布和正偏態(tài)分布曲線:
正如我們所看到的正偏態(tài)分布的曲線蜓洪,眾數(shù) <中位數(shù) <平均值。 所以如果中位數(shù)是50,平均值將超過50济赎,眾數(shù)將小于50。
7)以下哪一項是下圖分布的中位數(shù)的可能值?
A)32
B)26
C)17
D)40
答案:(B)
為了回答這個問題,我們需要了解中位數(shù)的基本定義若未。 中位數(shù)是其前后值大約一半的值隙疚。 小于25的數(shù)值是(36 + 54 + 69 = 159)捅厂,大于30的值的數(shù)量是(55 + 43 + 25 + 22 + 17 = 162)。 所以中位數(shù)應(yīng)該在25到30之間故硅。因此26是中位數(shù)的可能值徘层。
8)計算樣本標(biāo)準(zhǔn)差時跷敬,下列哪項陳述對于貝塞爾校正(Bessel’s correction)是正確的?
1.?不論對樣本數(shù)據(jù)執(zhí)行任何操作,都要使用貝塞爾校正。
2.?當(dāng)我們嘗試用樣本估計總體的標(biāo)準(zhǔn)差時,使用貝塞爾校正党巾。
3.?貝塞爾校正減少了標(biāo)準(zhǔn)差的偏差。
A)只有2
B)只有3
C)2和3
D)1和3
答案:(C)
與我們不應(yīng)該總是做貝塞爾校正這個普遍觀點相反。 當(dāng)我們用樣本的標(biāo)準(zhǔn)差來估算總體的標(biāo)準(zhǔn)差時捻勉,基本上是要做貝塞爾校正的。貝塞爾校正可以修正樣本的標(biāo)準(zhǔn)差使其更接近總體的情況刀森。
9)如果公式中的分母使用(n-1)計算數(shù)據(jù)集的方差踱启,則下列哪個選項正確?
A)數(shù)據(jù)集是一個樣本
B)數(shù)據(jù)集是一個總體
C)數(shù)據(jù)集可以是樣本或總體
D)數(shù)據(jù)集來自人口普查
E)以上都不正確
答案:(A)
如果公式中的方差分母使用了n-1琐凭,則表示該集合是樣本脓恕。 我們一般用離差的平方和除以n-1計算平均值刀脏,來估算總體的偏差。
當(dāng)我們使用總體數(shù)據(jù)時,可以直接將離差的平方和除以n而不是n-1。
10)[對錯判斷]標(biāo)準(zhǔn)差可以為負(fù)值裆装。
A)正確
B)錯誤
答案:(B)
以下是標(biāo)準(zhǔn)差的公式:
由于標(biāo)準(zhǔn)差是經(jīng)過平方肢娘,累加,然后再開方,因此標(biāo)準(zhǔn)差不可能是負(fù)的。
11)標(biāo)準(zhǔn)差對異常值是否穩(wěn)绞钏堋憔恳?
A)是
B)否
答案:(B)
按照上面的標(biāo)準(zhǔn)差公式,可以發(fā)現(xiàn)過高或過低的值會增加標(biāo)準(zhǔn)差安疗,盡管標(biāo)準(zhǔn)差與平均值非常不同。 因此,異常值將影響標(biāo)準(zhǔn)差。
12)對于下面的正態(tài)分布,以下哪個選項成立?
σ1疫蔓,σ2和σ3分別表示曲線1况脆,2和3的標(biāo)準(zhǔn)差。
A)σ1>σ2>σ3
B)σ1<σ2<σ3
C)σ1=σ2=σ3
D)以上皆否
答案:(B)
從正態(tài)分布的定義來看看铆,我們知道所有這3種形狀的曲線下的面積為1徽鼎。 曲線3更平坦,因而更分散(大多數(shù)值在40-160之間)弹惦,因此它的標(biāo)準(zhǔn)差最大否淤。 類似地,曲線1的范圍非常窄棠隐,并且所有值都在80-120的小范圍內(nèi)石抡。 因此,曲線1的標(biāo)準(zhǔn)差最小助泽。
13)在98%的置信區(qū)間啰扛,雙尾檢驗Z的臨界值是多少?
A)+/- 2.33
B)+/- 1.96
C)+/- 1.64
D)+/- 2.55
答案:(A)
我們需要查看Z值表來回答這個問題嗡贺。 對于雙尾檢驗和98%置信區(qū)間隐解,我們應(yīng)該檢查Z值之前的面積為0.99,因為平均值的左側(cè)和右側(cè)分別是1%诫睬。 因此煞茫,我們應(yīng)該檢查區(qū)域 > 0.99的Z值。 該值為+/- 2.33。
14)[對錯判斷]標(biāo)準(zhǔn)正態(tài)分布的曲線是對稱的续徽,對稱軸為0蚓曼,曲線下面的面積為1。
A)正確
B)錯誤
答案:(A)
由正態(tài)分布曲線的定義得知炸宵,曲線下面的面積為1辟躏,對稱軸為零, 平均值土全、中位數(shù)和眾數(shù)都等于0捎琐。平均值左側(cè)的面積等于平均值右側(cè)的面積。 因此它是對稱的裹匙。
問題背景15-17
研究表明飘弧,在學(xué)習(xí)時聽音樂可以提高記憶力。 為了證明這一點伸但,研究人員獲得了36名大學(xué)生的樣本肢执,給他們做了一個標(biāo)準(zhǔn)記憶測試,同時聽一些背景音樂惰匙。 在正常情況下(沒有音樂)技掏,測試得到的平均分為25,標(biāo)準(zhǔn)偏差為6项鬼。實驗后樣本(有音樂)的平均分為28哑梳。
15)這種情況下的零假設(shè)是什么?
A)學(xué)習(xí)時聽音樂不會影響記憶力绘盟。
B)學(xué)習(xí)時聽音樂可能會使記憶力退化鸠真。
C)在學(xué)習(xí)中聽音樂可能會提高記憶力。
D)在學(xué)習(xí)期間聽音樂不會提高記憶力龄毡,還可能會使記憶力變得更糟吠卷。
答案:(D)
零假設(shè)通常是假設(shè)聲明,測量現(xiàn)象彼此之間沒有關(guān)系沦零。 這里的零假設(shè)是聽音樂和記憶力的提高之間沒有關(guān)系祭隔。
16)什么是第一類錯誤?
A)學(xué)習(xí)時聽音樂可以提高記憶力路操,且該結(jié)論正確疾渴。
B)學(xué)習(xí)時聽音樂可以提高記憶力,但實際上記憶力并沒有提高寻拂。
C)學(xué)習(xí)時聽音樂不會提高記憶力程奠,但實際上記憶力提高了。
答案:(B)
第一類錯誤意味著當(dāng)假設(shè)的結(jié)論實際上為真時祭钉,我們卻拒絕了零假設(shè)瞄沙。 這里的零假設(shè)是音樂不會提高記憶力。 第一類錯誤是我們拒絕了零假設(shè),也就是說結(jié)論顯示音樂提高了記憶力距境,但實際上它并沒有提高記憶力申尼。
17)執(zhí)行Z檢驗后,我們可以得出什么結(jié)論垫桂?
A)聽音樂不會提高記憶力师幕。
B)聽音樂會顯著提高記憶力。
C)信息不足以作任何結(jié)論诬滩。
D)以上都不對
答案:(B)
我們在給定的情況下進(jìn)行Z檢驗霹粥。 我們知道零假設(shè)是聽音樂不會提高記憶力。
備擇假設(shè)是聽音樂確實提高了記憶力疼鸟。
在這種情況下后控,標(biāo)準(zhǔn)誤差即:
來自這個總體的樣本的平均值為28的Z值得分為:
從Z值表中可以看出,α= 0.05(單尾)的Z臨界值為1.65空镜。
因此浩淘,由于觀察到的Z值大于Z臨界值,所以我們可以拒絕零假設(shè)吴攒,可以下結(jié)論說聽音樂確實改善了記憶力张抄,置信度是95%。
18)研究者從他的分析中得出結(jié)論:安慰劑治療了艾滋病洼怔。 他犯了哪一類的錯誤署惯?
A)第一類錯誤
B)第二類錯誤
C)以上都不是。 研究人員沒有發(fā)生錯誤茴厉。
D)不能確定
答案:(D)
根據(jù)定義泽台,第一類錯誤是假設(shè)實際是真時什荣,拒絕零假設(shè)矾缓;第二類錯誤是假設(shè)實際是假時,接受零假設(shè)稻爬。 在這種情況下定義錯誤嗜闻,我們需要首先定義零假設(shè)和備擇假設(shè)。
19)當(dāng)我們往數(shù)據(jù)中引入一些異常值時桅锄,置信區(qū)間會發(fā)生什么變化琉雳?
A)置信區(qū)間對異常值是穩(wěn)健的
B)置信區(qū)間隨著異常值的引入而增加。
C)隨著異常值的引入友瘤,置信區(qū)間將減少翠肘。
D)在這種情況下,我們無法確定置信區(qū)間辫秧。
答案:(B)
我們知道置信區(qū)間取決于數(shù)據(jù)的標(biāo)準(zhǔn)差束倍。 如果我們將異常值引入數(shù)據(jù),則標(biāo)準(zhǔn)差增加,因此置信區(qū)間也增加绪妹。
問題背景20-22
醫(yī)生想通過控制飲食來降低所有患者的血糖水平甥桂。 他發(fā)現(xiàn)所有患者的血糖含量平均值為180,標(biāo)準(zhǔn)差為18邮旷。然后有9名患者開始控制飲食黄选,他觀察到樣本的平均值為175。現(xiàn)在婶肩,他正在考慮建議讓他的所有患者都去控制飲食办陷。
備注:置信區(qū)間99%。
20)平均值的標(biāo)準(zhǔn)誤差是多少律歼?
A)9
B)6
C)7.5
D)18
答案:(B)
平均值的標(biāo)準(zhǔn)誤差是標(biāo)準(zhǔn)差除以樣本量的平方根懂诗。即:
21)當(dāng)所有患者都開始控制飲食后,血糖平均值降至175以下的概率是多少苗膝?
A)20%
B)?25%
C)15%
D)12%
答案:(A)
這個問題需要計算出干預(yù)后所有患者的平均血糖值為175的概率殃恒, 可以通過給定的平均值計算出Z值。
查Z值表辱揭,得到Z對應(yīng)的數(shù)值?= -0.833?0.2033离唐。
因此,如果每個人都開始控制飲食问窃,那么所有患者平均血糖值降至175的概率大約為20%亥鬓。
22)以下哪項陳述是正確的?
A)醫(yī)生有有效的證據(jù)證明控制飲食可以降低血糖水平域庇。
B)醫(yī)生沒有足夠的證據(jù)證明控制飲食能夠降低血糖水平嵌戈。
C)如果醫(yī)生用同樣的方法讓所有患者控制飲食,那么平均血糖將會降至160以下听皿。
答案:(B)
我們需要核實是否有足夠的證據(jù)來拒絕零假設(shè)熟呛。 零假設(shè)是控制飲食對血糖沒有影響。 這是一個雙尾檢驗尉姨。 雙尾檢驗的Z臨界值為±2.58庵朝。
我們計算出的Z值是-0.833。
由于Z值 < Z臨界值又厉,因此我們沒有足夠的證據(jù)證明控制飲食能夠降低血糖九府。
問題背景23-25
一位研究人員正在試圖檢驗兩種不同教學(xué)方法的效果。 他把20名學(xué)生分成兩組覆致,每組10人侄旬。 對于第1組,教學(xué)方法是使用有趣的例子煌妈。 對于第2組儡羔,教學(xué)方法是使用軟件來幫助學(xué)生學(xué)習(xí)婆排。 兩組學(xué)生經(jīng)過20分鐘的授課后,所有學(xué)生進(jìn)行了考試笔链。
我們想計算兩組學(xué)生的考試得分是否有顯著的差異段只。
已知如下信息:
??α= 0.05,雙尾檢驗鉴扫。
??第1組的測試平均分?jǐn)?shù)= 10
??第2組的測試平均分?jǐn)?shù)= 7
??標(biāo)準(zhǔn)誤差= 0.94
23)?t-統(tǒng)計量的值是什么赞枕?
A)3.191
B)?3.395
C)不能確定
D)以上都不是
答案:(A)
t統(tǒng)計量是指兩組之間相差多少個標(biāo)準(zhǔn)誤差。
=(10-7)/ 0.94 = 3.191
24)兩組的考試得分是否有顯著差異坪创?
A)有
B)沒有
答案:(A)
零假設(shè)是兩組之間沒有差異炕婶,而被擇假設(shè)是兩組之間有顯著差異。
在α= 0.05條件下的雙尾檢驗的t臨界值為±2.101莱预。 得到t統(tǒng)計量為3.191柠掂。 由于t統(tǒng)計量大于t臨界值,因此我們可以拒絕零假設(shè)依沮,認(rèn)為這兩組在95%的置信區(qū)間上有顯著差異涯贞。
25) 考試得分的變異性在多大比例上可由教學(xué)方法不同來解釋?
A) 36.13
B) 45.21
C) 40.33
D) 32.97
答案:(A)
R2的值給出了分?jǐn)?shù)變異性的百分比危喉。R2的公式如下:
在本題中宋渔,自由度是10 + 10 -2,因為兩組各有10人辜限,所以自由度是18皇拣。
26)[對錯判斷] F統(tǒng)計量不能為負(fù)。
A)正確
B)錯誤
答案:(A)
F統(tǒng)計量是我們對不同組進(jìn)行方差分析薄嫡,了解不同組之間的差異時得到的值氧急。 F統(tǒng)計量是組間變異與組內(nèi)變異的比值。
下面是F統(tǒng)計量的公式:
由于分子和分母具有平方項毫深,因此F統(tǒng)計量不能為負(fù)吩坝。
27)下列哪張圖具有很強(qiáng)的正相關(guān)性?
答案:(B)
強(qiáng)正相關(guān)需要滿足下列條件:如果x增加费什,y也增加钾恢;如果x減少手素,y也減小鸳址。 在這種情況下,線的斜率為正泉懦,數(shù)據(jù)點將顯示出明確的線性關(guān)系稿黍。 選項B顯示出很強(qiáng)的正相關(guān)關(guān)系。
28)兩個變量(Var1和Var2)之間的相關(guān)性為0.65崩哩。 如果給Var1中的所有值加上2后巡球,相關(guān)系數(shù)將會_______言沐?
A)增加
B)減少
C)以上都沒有
答案:(C)
任一變量增加或減去一個恒定值,相關(guān)系數(shù)將保持不變酣栈。相關(guān)性的計算公式可以很容易地幫助我們理解這一點险胰。
如果我們給變量的所有值都加上一個常數(shù)值,則這個變量將發(fā)生相同的變化量矿筝,變量的差異將保持不變起便。 因此,相關(guān)系數(shù)不會變化窖维。
29)據(jù)觀察發(fā)現(xiàn)榆综,數(shù)學(xué)考試成績與在學(xué)生在考試當(dāng)天進(jìn)行體育運動存在非常高的相關(guān)性。 你能從中推斷出什么結(jié)論?
1.?高度相關(guān)意味著運動后考試成績會很高。
2.?相關(guān)性并不意味著因果關(guān)系炬太。
3.?相關(guān)性衡量了運動量與考試成績之間的線性關(guān)系的強(qiáng)度疾层。
A)只有1
B)1和3
C)2和3
D) 以上陳述都對
答案:(C)
雖然有時直覺上強(qiáng)相關(guān)性就表明因果關(guān)系,但實際上相關(guān)性并不意味著任何的因果推論镀琉。 它只是告訴我們兩個變量之間的關(guān)系的強(qiáng)度。 如果這兩個變量同時改變,那么它們之間存在高度的相關(guān)性水评。
30)如果數(shù)學(xué)考試成績與體育運動之間的相關(guān)系數(shù)(r)是0.86,那么用體育運動來解釋數(shù)學(xué)考試成績的變異性的百分比是多少媚送?
A)86%
B)74%
C)14%
D)26%
答案:(B)
變異性的百分比R2由相關(guān)系數(shù)的平方得到中燥, 該比值可以解釋由一個變量引起另一個變量變異的比例。 因此塘偎,用運動解釋數(shù)學(xué)考試成績的變異性為0.862疗涉。
31)下列選項對于直方圖的描述,哪個是正確的吟秩?
A)上述直方圖是單峰的
B)上述直方圖是雙峰的
C)上述給出的不是直方圖
D)以上都不對
答案:(B)
上述直方圖是雙峰的咱扣。 我們可以看到直方圖有兩個峰值,表示有兩個高頻涵防。
32)考慮回歸直線方程y = ax + b闹伪,其中a是斜率,b是截距壮池。 如果我們知道斜率的值偏瓤,那么通過下列哪個選項,我們一定可以找到截距的值椰憋?
A)把值(0, 0)代入到回歸直線方程中
B)代入回歸擬合線上任意一點的值厅克,計算b的值
C)使用方程中的x和y的平均值,和a一起計算得到b
D)以上都不對
答案:(C)
使用普通最小二乘回歸法的直線始終通過x和y的平均值橙依。 如果我們知道線上的任意一個點和斜率的值证舟,就可以很容易地找到截距硕旗。
33)當(dāng)我們向線性回歸模型引入更多的變量時會發(fā)生什么?
A)R2可能增加或保持不變女责,調(diào)整后的R2可能增加也可能減少漆枚。
B)R2可能增加也可能減少,但調(diào)整后的R2總是增加抵知。
C)當(dāng)為模型引入新的變量時浪读,R2和調(diào)整后的R2總是增加。
D)R2和調(diào)整后的R2都有可能增加或減少辛藻,依賴于引入的變量碘橘。
答案:(A)
R2總是增加或至少保持不變,因為使用普通最小二乘法吱肌,向模型添加更多的變量痘拆,方差的總和不會增加,R2也沒有減少氮墨。調(diào)整后的R2是在模型中根據(jù)預(yù)測變量的數(shù)量進(jìn)行調(diào)整后纺蛆,R2的修改版本。只有當(dāng)新的預(yù)測變量改進(jìn)了模型且超過預(yù)期時规揪,調(diào)整后的R2才會增加桥氏。當(dāng)預(yù)測變量對模型的改進(jìn)低于預(yù)期時,調(diào)整后的R2將減少猛铅。
34)在散點圖中字支,回歸線上面或下面的點到回歸線的垂直距離稱為____?
A)殘差
B)預(yù)測誤差
C)預(yù)測
D)A和B
E)以上都不是
答案:(D)
我們從圖中看到的線是從回歸線到點的垂直距離奸忽, 這些距離被稱為殘差或預(yù)測誤差堕伪。
35)在最小二乘法的一元線性回歸方程中,相關(guān)系數(shù)與決定系數(shù)之間的關(guān)系是栗菜?
A)兩者無關(guān)
B)決定系數(shù)是相關(guān)系數(shù)的平方
C)決定系數(shù)是相關(guān)系數(shù)的平方根
D)?兩者都是相同的
答案:(B)
決定系數(shù)是R2欠雌,告訴我們自變量解釋因變量的變異程度,也是相關(guān)系數(shù)的平方疙筹。 在多元回歸的情況下富俄,R2也可表示成解釋方差之和與方差總和的比值。
36)顯著性水平與置信度之間的關(guān)系是什么而咆?
A)顯著性水平=置信度
B)顯著性水平= 1-置信度
C)顯著性水平= 1 /置信度
D)顯著性水平= sqrt(1 - 置信度)
答案:(B)
顯著性水平就是1-置信度霍比。 如果顯著性水平為0.05,那么相應(yīng)的置信度為95%或0.95翘盖。顯著性水平就是當(dāng)零假設(shè)為真時桂塞,獲得極端值或超過極端值的結(jié)果的概率。 置信區(qū)間是總體參數(shù)可能值的范圍馍驯,如總體平均值阁危。 例如,如果你在95%的置信區(qū)間內(nèi)計算出冰淇淋的平均價格汰瘫,那么說明你有95%的信心認(rèn)為這個平均價格包含了所有冰淇淋的真實平均價格狂打。
顯著性水平和置信度在正態(tài)分布中是互補的。
37)[對錯判斷]?假設(shè)給定一個變量V以及其平均值和中位數(shù)混弥。 基于這些值趴乡,你可以判斷出變量“V”是有偏的。
平均值(V)>中位數(shù)(V)
A)正確
B)錯誤
答案:(B)
因為沒有提到變量V的分布類型蝗拿,我們不能肯定地說V是有偏的晾捏。
38)普通最小二乘法(OLS)線性回歸方程得到的回歸線試圖____?
A)通過盡可能多的點
B)通過盡可能少的點
C)最小化所觸及的點數(shù)
D)最小化點到回歸線的距離的平方
答案:(D)
回歸線嘗試最小化點到回歸線之間的距離的平方哀托。根據(jù)定義惦辛,普通最小二乘法回歸方程具有誤差的平方的最小和。 這意味著殘差的平方和也應(yīng)該是最小化的仓手。這條回歸線可能會也可能不會通過最多的數(shù)據(jù)點胖齐。最常見的情況是,當(dāng)數(shù)據(jù)有很多離群值或線性關(guān)系不是非常強(qiáng)的時候嗽冒,回歸線不是通過所有的點呀伙,而是盡量減少通過的點的誤差平方和。
39)下表是一個線性回歸方程(Y = 5X+40)添坊。
以下哪一項是該線性方程模型的MAE(平均絕對誤差)剿另?
A)8.4
B)10.29
C)42.5
D)以上都不是
答案:(A)
為了計算本題中的平均絕對誤差,我們首先用給定的方程計算Y值贬蛙,然后計算相對于實際Y值的絕對誤差驰弄。 那么這個絕對誤差的平均值將是平均絕對誤差。 下表總結(jié)了這些值速客。
40)對體重(y)和身高(x)進(jìn)行回歸分析得出以下最小二乘直線:y = 120 + 5x戚篙。 這意味著如果身高增加1英寸,則預(yù)期的體重將溺职?
A)增加1磅
B)增加5磅
C)增加125磅
D)以上都不是
答案:(B)
觀察給定方程y = 120 + 5x岔擂, 如果身高增加1個單位,則體重將增加5磅浪耘。因為截距120是不變的乱灵,不會貢獻(xiàn)差異。
41)[對錯判斷]?皮爾森(Pearson)相關(guān)性捕捉了兩個變量之間的線性依賴關(guān)系七冲,而斯皮爾曼(Spearman)相關(guān)性捕捉的是兩個變量之間的單調(diào)相關(guān)關(guān)系痛倚。
A)正確
B)錯誤
答案:(A)
該表述正確。皮爾森(Pearson)相關(guān)性評估了兩個連續(xù)變量之間的線性相關(guān)關(guān)系澜躺。 當(dāng)一個變量的變化與另一個變量的變化成比例時蝉稳,相關(guān)關(guān)系是線性的抒蚜。
而斯皮爾曼(Spearman)相關(guān)性是評價單調(diào)相關(guān)關(guān)系。 單調(diào)相關(guān)關(guān)系是兩個變量共同變化耘戚,但是不一定以固定的比例變化嗡髓。