習(xí)題部分:參閱了網(wǎng)上大佬們的習(xí)題答案,然后再自己搞了一下沙峻,順便整理出來(lái)睦授。
????????????????????????????????????????????????????????????表1.1 西瓜數(shù)據(jù)集
編號(hào)??????色澤??????根蒂??????敲聲??????好瓜
1???????????青綠??????蜷縮??????濁響??????是
2???????????烏黑??????蜷縮??????濁響??????是
3???????????青綠??????硬挺??????清脆??????否
4???????????烏黑??????稍蜷?????沉悶?????否
1.1 ??表1.1中若只包含編號(hào)為1和4的兩個(gè)樣例,試給出相應(yīng)的版本空間摔寨。
與訓(xùn)練集一致的“假設(shè)集合”我們稱(chēng)之為版本空間去枷,首先要求出所有的假設(shè)空間,然后在搜索過(guò)程中可以不斷刪除與正例不一致的假設(shè)是复、和與反例一致的假設(shè)删顶,最終會(huì)得到與訓(xùn)練集一致的假設(shè)。由于我們選定了1淑廊、4兩個(gè)樣例逗余,于是屬性色澤有三種可能:*、青綠蒋纬、烏黑猎荠,根蒂有* 、蜷縮蜀备、稍蜷关摇,敲聲有* 、濁響碾阁、沉悶输虱。(通配符"*":什么值都合使)
將假設(shè)空間用二進(jìn)制數(shù)表示出來(lái),一個(gè)屬性對(duì)應(yīng)兩位二進(jìn)制數(shù)脂凶,例如:*為11宪睹,青綠為01愁茁,烏黑為10(從大佬那里學(xué)習(xí)到的)......于是假設(shè)空間如下:
序號(hào) | 色澤 | 根蒂 | 敲聲 | 二進(jìn)制 |
---|---|---|---|---|
1 | * | * | * | 111111 |
2 | * | * | 濁響 | 111101 |
3 | * | * | 沉悶 | 111110 |
4 | * | 蜷縮 | * | 110111 |
5 | * | 稍蜷 | * | 111011 |
6 | 青綠 | * | * | 011111 |
7 | 烏黑 | * | * | 101111 |
8 | * | 蜷縮 | 濁響 | 110101 |
9 | * | 蜷縮 | 沉悶 | 110110 |
10 | * | 稍蜷 | 濁響 | 111001 |
11 | * | 稍蜷 | 沉悶 | 111010 |
12 | 青綠 | * | 濁響 | 011101 |
13 | 青綠 | * | 沉悶 | 011110 |
14 | 烏黑 | * | 濁響 | 101101 |
15 | 烏黑 | * | 沉悶 | 101110 |
16 | 青綠 | 蜷縮 | * | 010111 |
17 | 青綠 | 稍蜷 | * | 011011 |
18 | 烏黑 | 蜷縮 | * | 100111 |
19 | 烏黑 | 稍蜷 | * | 101011 |
20 | 青綠 | 蜷縮 | 濁響 | 010101 |
21 | 青綠 | 蜷縮 | 沉悶 | 010110 |
22 | 青綠 | 稍蜷 | 濁響 | 010110 |
23 | 青綠 | 稍蜷 | 沉悶 | 011001 |
24 | 烏黑 | 蜷縮 | 濁響 | 011010 |
25 | 烏黑 | 蜷縮 | 沉悶 | 100110 |
26 | 烏黑 | 稍蜷 | 濁響 | 101001 |
27 | 烏黑 | 稍蜷 | 沉悶 | 101010 |
二進(jìn)制轉(zhuǎn)十六進(jìn)制(方便代碼實(shí)現(xiàn))如下:0x3f、0x3d亭病、0x3e鹅很、0x37、0x3b罪帖、0x1f促煮、0x2f、0x35整袁、0x36菠齿、0x39、0x3a坐昙、0x1d绳匀、0x1e、0x2d炸客、0x2e疾棵、0x17、0x1b嚷量、0x27陋桂、0x2b逆趣、0x15蝶溶、0x16、0x19宣渗、0x1a抖所、0x25、0x26痕囱、0x29田轧、0x2a
于是假設(shè)空間可以如此計(jì)算:3×3×3+1=28 其中一個(gè)假設(shè)為,即對(duì)應(yīng)此例是“好瓜”的概念不成立鞍恢,即“好瓜”不存在傻粘。但訓(xùn)練集包含的是正例,所以這種假設(shè)不可能出現(xiàn)其中帮掉,于是將其剔除而只對(duì)27個(gè)假設(shè)進(jìn)行討論弦悉。化作二進(jìn)制可以利用位運(yùn)算符和邏輯運(yùn)算符來(lái)判斷其是否符合版本空間的定義蟆炊,由此對(duì)樣例1和4進(jìn)行處理稽莉。樣例1的十六進(jìn)制數(shù)為0x15,樣例4的十六進(jìn)制數(shù)為0x2a涩搓。代碼如下:
a=[0x3f,0x3d,0x3e,0x37,0x3b,0x1f,0x2f,0x35,0x36,0x39,0x3a,0x1d,0x1e,0x2d,0x2e, 0x17,0x1b,0x27,0x2b,0x15,0x16,0x19,0x1a,0x25,0x26,0x29,0x2a]
b=[0x15,0x2a]
s=0
for i in a:
if (i|b[1]) !=i and (i|b[0]) == i:
s+=1
print(a.index(i)+1)
print("共",s,"個(gè)假設(shè)")
結(jié)果是序號(hào)為2污秆、4劈猪、6、8良拼、12战得、16、20共 7 個(gè)假設(shè)庸推,分別對(duì)應(yīng)上表查看即可贡避。
1.2 與使用單個(gè)合取式來(lái)進(jìn)行假設(shè)表示相比,使用“析合范式”將使得假設(shè)空間具有更強(qiáng)的表示能力予弧。若使用最多包含k個(gè)合取式的析合范式來(lái)表達(dá)表1.1西瓜分類(lèi)問(wèn)題的假設(shè)空間刮吧,試估算有多少種可能的假設(shè)。
合取式( conJunction):用合取真值聯(lián)結(jié)詞“∧”將兩個(gè)或兩個(gè)以上的命題聯(lián)結(jié)起來(lái)而形成的命題形式掖蛤。(來(lái)自百科)
析合范式即多個(gè)合取式的析取杀捻。
此問(wèn)題可以參考大佬的做法:《機(jī)器學(xué)習(xí)》(周志華)第一章課后習(xí)題參考答案,但其是用C語(yǔ)言進(jìn)行計(jì)算實(shí)現(xiàn)的蚓庭。
對(duì)于本題致讥,需要去冗余。使用二進(jìn)制表示每個(gè)合取式器赞。共3×4×4=48個(gè)合取式垢袱,
其中不包含*的合取式有2×3×3=18個(gè)。這18個(gè)合取式(稱(chēng)為葉子合取式)可以組合成任意的析合范式港柜、合取式请契。于是我們可以用它們分別與48個(gè)基本的合取式進(jìn)行按位或運(yùn)算(符號(hào) | ,有1則1)夏醉,若運(yùn)算結(jié)果為對(duì)應(yīng)的48個(gè)基本合取式本身爽锥,則記為1,否則記為0畔柔,結(jié)果為48個(gè)18位的二進(jìn)制數(shù)氯夷,這些數(shù)便是析合范式的表示形式。
我們可以發(fā)現(xiàn)本題的假設(shè)空間足足有218-1=262143辣么大靶擦!因?yàn)檫@是18位二進(jìn)制數(shù)所能表達(dá)的最大范圍腮考,析合范式不考慮空集,故減去了1玄捕。
以上是對(duì)于析合范式新定義的一種表達(dá)方式踩蔚。下面就是歷遍的問(wèn)題了。下面就參考上面鏈接的文章吧可能還未必看得懂桩盲!
咳咳寂纪,我來(lái)梳理一遍解題思路:
1、首先有3×4×4=48種假設(shè)(合取式),然后題目要求從48種假設(shè)中取k種假設(shè)組合成一個(gè)新的假設(shè)捞蛋,這些新假設(shè)放在一起孝冒,就形成一個(gè)假設(shè)空間
2、但這種假設(shè)空間是有冗余的拟杉,于是我們要剔除通配庄涡,即*造成的冗余,所以映射出2×3×3=18種葉子合取式(有具體值搬设,不存在通配)穴店,對(duì)18種葉子假設(shè)進(jìn)行析取
3、最后拿穴,再對(duì)析取出的重復(fù)項(xiàng)進(jìn)行剔除泣洞,得到無(wú)冗余的假設(shè)空間
1.3???若數(shù)據(jù)包含噪聲,則假設(shè)空間中有可能不存在與所有訓(xùn)練樣本都一致的假設(shè)默色。在此情形下球凰,設(shè)計(jì)一種歸納偏好用于假設(shè)選擇。
有噪聲腿宰,所以就先去噪呕诉,那么如何去噪,方法挺多的吃度。就說(shuō)一種甩挫,若出現(xiàn)同屬性而標(biāo)記不同,可以認(rèn)為它屬于最接近它的幾個(gè)數(shù)據(jù)的屬性椿每,或者將它們?nèi)サ粢琳撸只蛘咧蝗サ舴蠢?/strong>
1.4???本章1.4節(jié)在論述“沒(méi)有免費(fèi)的午餐”定理時(shí),默認(rèn)使用了“分類(lèi)錯(cuò)誤率”作為性能度量來(lái)對(duì)分類(lèi)器進(jìn)行評(píng)估拖刃。若換用其他性能度量l删壮,則式(1.1)將改為如P191.4題圖所示
試證明“沒(méi)有免費(fèi)的午餐定理”仍成立贪绘。
引理1:在二分類(lèi)問(wèn)題下兑牡,對(duì)任意性能度量指標(biāo)l,l(h(x)=f(x))+l(h(x)≠f(x))=A,A為某一常數(shù)税灌。
對(duì)于二分類(lèi)問(wèn)題均函,NFL假設(shè)目標(biāo)函數(shù)f均勻分布,對(duì)于有X個(gè)樣本的二分類(lèi)問(wèn)題菱涤,f共有2X種情況苞也。
對(duì)于均勻分布即假設(shè)一致的概率 P(f(x)=h(x))=0.5。
此時(shí)粘秆, ∑fl(h(x),f(x))=0.5?2X?(l(h(x)=f(x))+l(h(x)≠f(x)))
其中(l(h(x)=f(x))+l(h(x)≠f(x)))應(yīng)為常數(shù)A如迟,才得到引理,“沒(méi)有免費(fèi)的午餐定理”仍成立。引理可由 l(0,0)=l(1,1),l(0,1)=l(1,0)推出l(0,0)+l(0,1)=l(1,1)+l(1,0)殷勘,再設(shè)l(0,0)+l(0,1)=l(1,1)+l(1,0)=A 得到此再。
1.5???試述機(jī)器學(xué)習(xí)能在互聯(lián)網(wǎng)搜索的哪些環(huán)節(jié)起作用
1、對(duì)文本提取的信息進(jìn)行處理玲销,語(yǔ)義分析與情感分析输拇,再反饋給搜索引擎,提交信息贤斜;
2策吠、根據(jù)用戶的點(diǎn)擊量與瀏覽頻率,生成推薦信息瘩绒,得到用戶感興趣程度猴抹,對(duì)搜索出的內(nèi)容進(jìn)行綜合分析排序;
3锁荔、提高問(wèn)題與信息的匹配程度洽糟,提高搜索的精度,對(duì)信息匹配進(jìn)行優(yōu)化堕战;