2.1 數(shù)據(jù)集包含1000個(gè)樣本甚带,其中500個(gè)正例鸟召、500個(gè)反例扣草,將其劃分為包含70%樣本的訓(xùn)練集和30%樣本的測(cè)試集用于留出法評(píng)估了牛,試估算共有多少種劃分方式。
- 題目分析:根據(jù)題意辰妙,我們需要?jiǎng)澐殖?50個(gè)正例和反例作為樣本的訓(xùn)練集鹰祸,150個(gè)正例和反例作為樣本的測(cè)試集,因此該題是一個(gè)典型的排列組合問題密浑。
- 答案:
2.2 數(shù)據(jù)集包含100個(gè)樣本蛙婴,其中正、反例各一半尔破,假定學(xué)習(xí)算法所產(chǎn)生的模型是將新樣本預(yù)測(cè)為訓(xùn)練樣本數(shù)較多的類別(訓(xùn)練樣本數(shù)相同時(shí)進(jìn)行隨機(jī)猜測(cè))街图,試給出用10折交叉驗(yàn)證法和留一法分別對(duì)錯(cuò)誤率進(jìn)行評(píng)估所得的結(jié)果。
- 知識(shí)點(diǎn):
十折交叉驗(yàn)證懒构,英文名叫做10-fold cross-validation餐济,用來測(cè)試算法準(zhǔn)確性。是常用的測(cè)試方法胆剧。將數(shù)據(jù)集分成十份絮姆,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù)赞赖,進(jìn)行試驗(yàn)滚朵。
留一法,假定數(shù)據(jù)集D中包含m個(gè)樣本前域,若令k=m辕近,則得到了交叉驗(yàn)證法的一個(gè)特例:留一法(Leave-One-Out,簡(jiǎn)稱LOO)匿垄。顯然移宅,留一法不受隨機(jī)樣本劃分方式的影響,因?yàn)閙個(gè)樣本只有唯一的方式劃分為m個(gè)子集——每個(gè)子集包含一個(gè)樣本椿疗;留一法使用的訓(xùn)練集與初始數(shù)據(jù)集相比只少了一個(gè)樣本漏峰,這就使得在絕大多數(shù)情況下,留一法中被實(shí)際評(píng)估的模型與期望評(píng)估的用D訓(xùn)練出的模型很相似届榄。因此浅乔,留一法的評(píng)估結(jié)果往往被認(rèn)為比較準(zhǔn)確。然而,留一法也有其缺陷:在數(shù)據(jù)集比較大時(shí)靖苇,訓(xùn)練m個(gè)模型的計(jì)算開銷可能是難以忍受的(例如數(shù)據(jù)集包含1百萬個(gè)樣本席噩,則需訓(xùn)練1百萬個(gè)模型),而這還是在未考慮算法調(diào)參的情況下贤壁。另外悼枢,留一法的估計(jì)結(jié)果也未必永遠(yuǎn)比其他評(píng)估方法準(zhǔn)確;“沒有免費(fèi)的午餐”定理對(duì)實(shí)驗(yàn)評(píng)估方法同樣適用脾拆。
- 答案:
十折交叉驗(yàn)證:10折交叉驗(yàn)證時(shí)馒索,每個(gè)訓(xùn)練集應(yīng)該有45正例、45反例名船,驗(yàn)證集應(yīng)該有5正例绰上、5反例,由于訓(xùn)練集中正例包帚、反例比例為1:1渔期,則按照題目的預(yù)測(cè)算法,預(yù)測(cè)時(shí)會(huì)進(jìn)行隨機(jī)預(yù)測(cè)(因?yàn)橛?xùn)練樣本數(shù)比例相同)渴邦,所以錯(cuò)誤率的期望為50%
留一法:留下來做驗(yàn)證集的樣本有兩種情況:正例疯趟、反例。當(dāng)留下來的是正例時(shí)谋梭,訓(xùn)練集中反例比正例多一個(gè)信峻,按照題目的算法會(huì)將驗(yàn)證集預(yù)測(cè)為反例,預(yù)測(cè)錯(cuò)誤瓮床;留下來的是反例時(shí)同理盹舞,會(huì)將驗(yàn)證集預(yù)測(cè)為正例。所以錯(cuò)誤率的期望為100%
2.3 若學(xué)習(xí)器A的值比學(xué)習(xí)器B高隘庄,試分析A的BEP值是否也比B高踢步。
- 知識(shí)點(diǎn):
BEP是查準(zhǔn)率和查全率相等的點(diǎn),即
- 分析:此題常見錯(cuò)誤即認(rèn)為F1與BEP相等丑掺,雖然BEP是F1的特殊情況获印,但F1的大小與BEP的大小沒有明確的關(guān)系。由于是兩個(gè)不同分類器街州,并不能推算出之間的大小關(guān)系兼丰。
2.4 試述真正例率(TPR)、假正利率(FPR)與查準(zhǔn)率(P)唆缴、查全率(R)之間的聯(lián)系鳍征。
- 知識(shí)點(diǎn):
分類結(jié)果混淆矩陣如下
- 分析:
查全率: 真正的正例被預(yù)測(cè)為正例的比率
真正例率:真正的正例被預(yù)測(cè)為正例的比率
顯然查全率=真正例率
查準(zhǔn)率: 預(yù)測(cè)的正例中真正的正例所占的比率
假正例率:真正的反例被預(yù)測(cè)為正例的比率
查準(zhǔn)率與假正例率沒有數(shù)值上的關(guān)系
2.5 試證明
-
題目解釋:根據(jù)定義知AUC可以通過ROC曲線下各部分面積求和而得,而此題即需要證明為何 表示的是ROC曲線之上的面積,即證明以下求得公式面徽。
- 推導(dǎo)過程:
以下內(nèi)容參考南瓜書PumpkinBook——第二章 模型評(píng)估
假設(shè)某ROC曲線如下圖所示:
觀察ROC曲線易知:
- 每增加一條綠色線段對(duì)應(yīng)著有一個(gè)正樣例被模型正確判別為正例艳丛,且該線段在Y軸的投影長(zhǎng)度恒為
- 每增加一條紅色線段對(duì)應(yīng)著有一個(gè)反樣例被模型正確判別為正例,且該線段在X軸的投影長(zhǎng)度恒為
- 每增加一條藍(lán)色線段對(duì)應(yīng)著有a個(gè)正樣例和b個(gè)反樣例同時(shí)被判別為正例,且該線段在X軸上的投影長(zhǎng)度為氮双,在Y軸上的投影長(zhǎng)度為
- 任何一條線段所對(duì)應(yīng)的樣例的預(yù)測(cè)值一定小于其左邊和下邊的線段所對(duì)應(yīng)的樣例的預(yù)測(cè)值旺聚,其中藍(lán)色線段所對(duì)應(yīng)的個(gè)樣例的預(yù)測(cè)值相等。
公式里的可以看成一個(gè)遍歷的循環(huán):
for in :
將該式記為S
由于每個(gè)都對(duì)應(yīng)著一條綠色或藍(lán)色線段眶蕉,所以遍歷 可以看成是在遍歷每條綠色和藍(lán)色線段,并用式S來求出每條綠色線段與Y軸構(gòu)成的面積(例如上圖中的m1)或者藍(lán)色線段與Y軸構(gòu)成的面積(例如上圖中的m2+m3)
對(duì)于每條綠色線段: 將其式S展開可得:
其中此時(shí)恒為該線段所對(duì)應(yīng)的正樣例唧躲,是一個(gè)定值造挽。是在通過遍歷所有反樣例來統(tǒng)計(jì)和的預(yù)測(cè)值相等的反樣例個(gè)數(shù),由于沒有反樣例的預(yù)測(cè)值和的預(yù)測(cè)值相等弄痹,所以此時(shí)恒為0饭入,于是其式S可以化簡(jiǎn)為:
其中為該線段在Y軸上的投影長(zhǎng)度,同理是在通過遍歷所有反樣例來統(tǒng)計(jì)預(yù)測(cè)值大于的預(yù)測(cè)值的反樣例個(gè)數(shù)肛真,也即該線段左邊和下邊的紅色線段個(gè)數(shù)+藍(lán)色線段對(duì)應(yīng)的反樣例個(gè)數(shù)谐丢,所以便是該線段左邊和下邊的紅色線段在X軸的投影長(zhǎng)度+藍(lán)色線段在X軸的投影長(zhǎng)度,也就是該綠色線段在X軸的投影長(zhǎng)度蚓让,觀察ROC圖像易知綠色線段與Y軸圍成的面積=該線段在Y軸的投影長(zhǎng)度 * 該線段在X軸的投影長(zhǎng)度乾忱。
對(duì)于每條藍(lán)色線段: 將其式S展開可得:
其中前半部分表示的是藍(lán)色線段和Y軸圍成的圖形里面矩形部分的面積,后半部分表示的便是剩下的三角形的面積历极,矩形部分的面積公式同綠色線段的面積公式一樣很好理解窄瘟,而三角形部分的面積公式里面的為底邊長(zhǎng),為高趟卸。
綜上分析可知蹄葱,式S既可以用來求綠色線段與Y軸構(gòu)成的面積也能求藍(lán)色線段與Y軸構(gòu)成的面積,所以遍歷完所有綠色和藍(lán)色線段并將其與Y軸構(gòu)成的面積累加起來即得 锄列。
2.6 試述錯(cuò)誤率與ROC曲線的聯(lián)系
-
知識(shí)點(diǎn):
錯(cuò)誤率: 錯(cuò)誤分類個(gè)數(shù)所占的比率
ROC曲線基于TPR與FPR表示了模型在不同截?cái)帱c(diǎn)取值下的泛化性能图云。
查全率: 真正的正例被預(yù)測(cè)為正例的比率
查準(zhǔn)率: 預(yù)測(cè)的正例中真正的正例所占的比率
真正例率:真正的正例被預(yù)測(cè)為正例的比率
假正例率:真正的反例被預(yù)測(cè)為正例的比率
- 答案:ROC曲線上的點(diǎn)越靠近(1,0)學(xué)習(xí)器越完美邻邮,但是常需要通過計(jì)算等錯(cuò)誤率來實(shí)現(xiàn)P竣况、R的折衷,而P饶囚、R則反映了我們所側(cè)重部分的錯(cuò)誤率帕翻。
2.7 試證明任意一條ROC曲線都有一條代價(jià)曲線與之對(duì)應(yīng),反之亦然萝风。
-
答案:
ROC曲線上點(diǎn)的坐標(biāo)為(TPR,FPR)嘀掸,而代價(jià)曲線則是一條從(0,F(xiàn)PR)到(1规惰,F(xiàn)NR)的線段睬塌。
其中為假反例率,。
因此在得知ROC曲線之后揩晴,TPR,FPR值已知勋陪,從而FNR和FPR的值也已知,能夠做出代價(jià)曲線硫兰,反之亦然诅愚。
2.8 Min-max規(guī)范化和z-score規(guī)范化是兩種常用的規(guī)范化方法。令和分別表示變量在規(guī)范化前后的取值劫映,相應(yīng)的违孝,令和表示規(guī)范化前的最小值和最大值,和表示規(guī)范化后的最小值和最大值泳赋,和分別表示規(guī)范化前的均值和標(biāo)準(zhǔn)差雌桑,則min-max規(guī)范化、z-score規(guī)范化分別如下公式祖今。試分析二者的優(yōu)缺點(diǎn)校坑。
- 答案:
Max-min | z-score |
---|---|
方法簡(jiǎn)單 | 計(jì)算量相對(duì)更大 |
容易受到高杠桿點(diǎn)和離群點(diǎn)影響 | 對(duì)離群點(diǎn)敏感度相對(duì)低一些 |
當(dāng)加入新值拆除當(dāng)前最大最小范圍是重新計(jì)算所有之前的結(jié)果 | 沒加入新值都要重新計(jì)算所有之前結(jié)果 |
2.9 試述檢驗(yàn)過程。
- 答案:
卡方檢驗(yàn)是研究數(shù)據(jù)比率上的差異性千诬,用于比較定類與定類數(shù)據(jù)的關(guān)系情況耍目。
通過實(shí)例簡(jiǎn)述四格表檢驗(yàn)過程
1.建立無關(guān)性假設(shè),通過數(shù)據(jù)構(gòu)建四格表
舉個(gè)例子大渤,假設(shè)我們有一堆新聞標(biāo)題制妄,需要判斷標(biāo)題中包含某個(gè)詞(比如吳亦凡)是否與該條新聞的類別歸屬(比如娛樂)是否有關(guān),我們只需要簡(jiǎn)單統(tǒng)計(jì)就可以獲得這樣的一個(gè)四格表:
組別 | 屬于 | 不屬于 | 合計(jì) |
---|---|---|---|
不包含 | 19 | 24 | 43 |
包含 | 34 | 10 | 44 |
合計(jì) | 53 | 34 | 87 |
通過這個(gè)四格表我們得到的第一個(gè)信息是:標(biāo)題是否包含吳亦凡確實(shí)對(duì)新聞是否屬于娛樂有統(tǒng)計(jì)上的差別泵三,包含吳亦凡的新聞屬于娛樂的比例更高耕捞,但我們還無法排除這個(gè)差別是否由于抽樣誤差導(dǎo)致。
那么首先假設(shè)標(biāo)題是否包含吳亦凡與新聞是否屬于娛樂是獨(dú)立無關(guān)的烫幕,隨機(jī)抽取一條新聞標(biāo)題俺抽,屬于娛樂類別的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%
2.根據(jù)假設(shè)生存新的理論四格表
在第一步中,我們計(jì)算得出了新聞屬于娛樂類別的概率是60.9%较曼,通過此概率可以計(jì)算得到新的理論值四格表
組別 | 屬于 | 不屬于 | 合計(jì) |
---|---|---|---|
不包含 | 43 | ||
包含 | 44 |
3.計(jì)算的值
的計(jì)算公式為:
其中A為實(shí)際值弛饭,也就是第一個(gè)四格表里的4個(gè)數(shù)據(jù),T為理論值萍歉,也就是理論值四格表里的4個(gè)數(shù)據(jù)侣颂。
用于衡量實(shí)際值與理論值的差異程度(也就是卡方檢驗(yàn)的核心思想),包含了以下兩個(gè)信息:
- 實(shí)際值與理論值偏差的絕對(duì)大星购ⅰ(由于平方的存在憔晒,差異是被放大的)
- 差異程度與理論值的相對(duì)大小
對(duì)上述場(chǎng)景可計(jì)算值為10.01藻肄。
4.根據(jù)值查詢卡方分布的臨界值表
既然已經(jīng)得到了值,我們又怎么知道值是否合理拒担?也就是說嘹屯,怎么知道無關(guān)性假設(shè)是否可靠?
答案是从撼,通過查詢卡方分布的臨界值表州弟。
這里需要用到一個(gè)自由度的概念,自由度等于V = (行數(shù) - 1) * (列數(shù) - 1)低零,對(duì)四格表呆馁,自由度V = 1。
對(duì)V = 1毁兆,卡方分布的臨界概率是:
可以看到10.01>7.88,也就是標(biāo)題是否包含吳亦凡與新聞是否屬于娛樂無關(guān)的可能性小于0.5%,反過來阴挣,就是兩者相關(guān)的概率大于99.5%气堕。
卡方檢驗(yàn)到此結(jié)束
卡方檢驗(yàn)的一個(gè)典型應(yīng)用場(chǎng)景是衡量特定條件下的分布是否與理論分布一致,比如:特定用戶某項(xiàng)指標(biāo)的分布與大盤的分布是否差異很大畔咧,這時(shí)通過臨界概率可以合理又科學(xué)的篩選異常用戶茎芭。
另外,值描述了自變量與因變量之間的相關(guān)程度:值越大誓沸,相關(guān)程度也越大梅桩,所以很自然的可以利用值來做降維,保留相關(guān)程度大的變量拜隧。
再回到剛才新聞分類的場(chǎng)景宿百,如果我們希望獲取和娛樂類別相關(guān)性最強(qiáng)的100個(gè)詞,以后就按照標(biāo)題是否包含這100個(gè)詞來確定新聞是否歸屬于娛樂類洪添,怎么做垦页?很簡(jiǎn)單,對(duì)娛樂類新聞標(biāo)題所包含的每個(gè)詞按上述步驟計(jì)算值干奢,然后按值排序痊焊,取值最大的100個(gè)詞。
2.10 試述在Friedman檢驗(yàn)中使用下兩式的區(qū)別忿峻。
式1:
式2:
答案:式1是標(biāo)準(zhǔn)的弗里德曼檢驗(yàn)計(jì)算公式薄啥,但是在樣本量較小的情況下,式1計(jì)算結(jié)果明顯偏離卡方分布逛尚。此時(shí)需利用式2計(jì)算垄惧,然后通過專門弗里德曼檢驗(yàn)臨界值表進(jìn)行檢驗(yàn)。
對(duì)于涉及6個(gè)以上總體的小樣本量Friedman檢驗(yàn)黑低,如果不能從有關(guān)書籍中查到臨界值赘艳,便只能采用卡方檢驗(yàn)了 [1] 酌毡。
[1] 陶澍.應(yīng)用數(shù)理統(tǒng)計(jì)方法:中國(guó)環(huán)境科學(xué)出版社,1994年08月第1版