介紹
第一部分?參數(shù)方法——類密度模型參數(shù)估計(jì)
第二部分?監(jiān)督學(xué)習(xí)——分類(基于似然的方法)
第三部分?監(jiān)督學(xué)習(xí)——分類(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計(jì))
第四部分 監(jiān)督學(xué)習(xí)——回歸
第五部分?監(jiān)督學(xué)習(xí)——關(guān)聯(lián)規(guī)則
第六部分?維度規(guī)約(特征的提取和組合)
第七部分?半?yún)?shù)方法
第八部分?非監(jiān)督學(xué)習(xí)——聚類
第九部分?非參數(shù)方法——密度估計(jì)
第十部分?非參數(shù)方法——決策樹(shù)實(shí)現(xiàn)的判別式
第十一部分?多層感知器——非參數(shù)估計(jì)器
第十二部分?局部模型
第十三部分?支持向量機(jī)與核機(jī)器
第十四部分?隱馬爾科夫模型
第十五部分?參數(shù)的貝葉斯估計(jì)
第十六部分?集成學(xué)習(xí)——組合多學(xué)習(xí)器
第十七部分?增強(qiáng)學(xué)習(xí)
第十八部分?機(jī)器學(xué)習(xí)實(shí)驗(yàn)
第十九部分?特征工程與數(shù)據(jù)預(yù)處理
不同于分類媚媒,輸出時(shí)離散的胎署。回歸的輸出時(shí)連續(xù)的暑刃,需要學(xué)習(xí)的是一個(gè)數(shù)值函數(shù)腹泌。這個(gè)函數(shù)是未知的粟关。假設(shè)我們從中抽取的樣本訓(xùn)練集是套菜,其中
是一維的數(shù)值輸出亲善。
如果不存在噪聲,任務(wù)就是插值逗柴。希望找到通過(guò)這些點(diǎn)的函數(shù) f蛹头,使得。?
對(duì)于噪聲嚎于,添加到未知函數(shù)上,有挟冠。引起噪聲的因素則是不可觀測(cè)量于购。
我們希望通過(guò)模型來(lái)逼近輸出r,使得訓(xùn)練集X上的經(jīng)驗(yàn)誤差(誤差平方和)
最小知染。模型
的選擇很重要肋僧。?
參數(shù)回歸
同上,假定輸出是輸入的確定性函數(shù)和隨機(jī)噪聲的和:
其中f 是未知函數(shù)控淡,將用定義在參數(shù)上的估計(jì)
來(lái)近似它嫌吠。如果假設(shè)
,則有
掺炭,是給定輸入下輸出的概率辫诅。
訓(xùn)練集中的數(shù)據(jù)對(duì)取自聯(lián)合概率密度
,有
涧狮。給定樣本X炕矮,對(duì)數(shù)自然為
第二項(xiàng)不依賴估計(jì),故等同于考慮
第一項(xiàng)獨(dú)立于參數(shù)者冤,最大化上式肤视,等同于最小化
形式上與上面所提經(jīng)驗(yàn)誤差一樣,最小化它的就是最小二乘估計(jì)涉枫⌒匣可以看出,當(dāng)誤差
服從正態(tài)分布時(shí)愿汰,最大化似然等同于最小化誤差平方和困后,最大似然估計(jì)等同于最小二乘估計(jì)(least squares estimate),不論g是什么形式的函數(shù)衬廷。
在常見(jiàn)的線性回歸和多項(xiàng)式回歸中操灿,常使用這種方式,通過(guò)公式求得參數(shù)估計(jì)泵督。以線性回歸為例趾盐,有線性模型
對(duì)誤差的平方和關(guān)于求導(dǎo),得到
可以寫(xiě)成向量矩陣的形式,得到
救鲤,其中
久窟,
,
基于誤差平方和本缠,有相對(duì)平方誤差
斥扛。其更接近0時(shí),說(shuō)明得到更好的擬合丹锹。如果接近1稀颁,說(shuō)明模型不比采用平均值進(jìn)行估計(jì)更好。
在多元線性回歸中楣黍,情況和一維的一樣匾灶,最大化似然等價(jià)于最小化誤差的平方和。
非參數(shù)回歸
給定訓(xùn)練集租漂,其中
阶女,假定
。在參數(shù)回歸中哩治,假定g為某種多項(xiàng)式秃踩,并最小化訓(xùn)練集上的誤差平方和。當(dāng)不能假定多項(xiàng)式時(shí)业筏,使用非參數(shù)回歸憔杨,只假定相近的x 有相近的g(x)值。
與非參數(shù)密度估計(jì)一樣蒜胖,給定x芍秆,我們的方法是找出x 的鄰域。并求領(lǐng)域中r 的某種平均值翠勉,作為g(x)的估計(jì)妖啥。這種非參數(shù)回歸估計(jì)子稱為光滑子,該估計(jì)成光滑对碌。
類似于非參數(shù)密度估計(jì)荆虱,有不同的定義鄰域的方式。
移動(dòng)均值光滑
像直方圖中那樣朽们,定義一個(gè)原定和箱寬度h怀读,并求箱中 r 的平均值。得到回歸
其中骑脱。
如質(zhì)樸估計(jì)一樣菜枷,在移動(dòng)均值光滑中,于x周圍定義一個(gè)對(duì)稱箱來(lái)避免定義原點(diǎn)叁丧。
啤誊,其中
岳瞭。
核光滑
和核估計(jì)一樣,讓較遠(yuǎn)的實(shí)例點(diǎn)有較小的權(quán)重蚊锹,并得到核光滑瞳筏。
通常使用高斯核K。除了固定h牡昆,可使用x 與距其 第k近的實(shí)例 之間的距離姚炕,使得估計(jì)能自適應(yīng) x 周圍的密度,得到k-nn光滑丢烘。
移動(dòng)線光滑
取代在點(diǎn)上取點(diǎn)鄰域內(nèi)實(shí)例的平均值來(lái)進(jìn)行估計(jì)擬合柱宦,使用輸入x鄰域內(nèi)的實(shí)例數(shù)據(jù),來(lái)擬合一條局部回歸線播瞳。再給出x的輸出掸刊。
局部加權(quán)移動(dòng)線光滑(loess),通過(guò)核加權(quán)使較遠(yuǎn)的點(diǎn)對(duì)誤差具有較小影響狐史,而不是像移動(dòng)線光滑一樣使用鄰域的硬定義痒给。
回歸樹(shù)
運(yùn)用非參數(shù)的決策樹(shù)方法说墨,同樣能實(shí)現(xiàn)回歸的目的骏全。見(jiàn)《非參數(shù)方法——決策樹(shù)》一節(jié)。