寫在前面:關(guān)于機(jī)器學(xué)習(xí)嫂便,一開始我是拒絕的!因?yàn)閷τ谝粋€水平有限狮含、頭腦不發(fā)達(dá)顽悼、沒有經(jīng)驗(yàn)的大學(xué)生來說,無疑是樸實(shí)無華且枯燥的几迄,但最終還是在新時代引領(lǐng)之下,邁向了機(jī)器學(xué)習(xí)的領(lǐng)域冰评,我便從本書(西瓜書)開始映胁,寫一寫總結(jié)的東西,記錄學(xué)習(xí)的過程甲雅,雖然有些乏力解孙,但盡量做到理解坑填。必有或有紕漏,水平有限弛姜,望讀者勿怪脐瑰!
1. 什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)致力于研究如何通過計(jì)算的手段廷臼,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能苍在。其形式化定義:
假設(shè)用P來評估計(jì)算機(jī)程序在某任務(wù)類T上的性能,若一個程序通過利用經(jīng)驗(yàn)E在T中任務(wù)上獲得了性能改善荠商,則我們就說關(guān)于T和P寂恬,該程序?qū)進(jìn)行了學(xué)習(xí)。
基本術(shù)語:
數(shù)據(jù)即是關(guān)于某研究對象或事件的一條條記錄莱没,這些記錄的集合被稱為“數(shù)據(jù)集”初肉,每條記錄是關(guān)于對象或事件的描述,以屬性或特征來進(jìn)行描述饰躲,屬性上的取值就叫“屬性值”,屬性張成的空間叫做“屬性空間”或者”樣本空間“(以屬性為坐標(biāo)軸形成的一個空間)牙咏,空間中每個點(diǎn)對應(yīng)一個坐標(biāo)向量,于是把示例稱為一個“特征向量”嘹裂。
D = {x1,x2,...,xm}表示包含m個示例的數(shù)據(jù)集眠寿。
每個示例由d個屬性描述:
xi={xi1,xi2,...,xid}是d維屬性空間中的一個向量,xij是xi在第j個屬性上的取值焦蘑,d稱為樣品xi的“維數(shù)”盯拱。
從數(shù)據(jù)中習(xí)得模型的過程就稱為“學(xué)習(xí)”或者“訓(xùn)練”,而這個過程通過執(zhí)行某個學(xué)習(xí)算法來完成例嘱。訓(xùn)練過程中用到的數(shù)據(jù)就稱作“訓(xùn)練數(shù)據(jù)”狡逢,其中每個樣本就稱作“訓(xùn)練樣本”,這些樣本就成一個集合就叫“訓(xùn)練集”拼卵。
若我們想要預(yù)測的是離散值奢浑,此類學(xué)習(xí)任務(wù)稱為分類(瓜好、瓜壞)腋腮;
若想預(yù)測連續(xù)值雀彼,則稱為回歸(瓜熟程度0.92、0.27)即寡。
習(xí)得模型后徊哑,使用模型進(jìn)行預(yù)測的過程稱為“測試”。
聚類:將訓(xùn)練集中的物體或事件分成若干組聪富,每組稱為一個“簇”莺丑。
根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)分為:
1.監(jiān)督學(xué)習(xí) (以分類、回歸為代表)
2.非監(jiān)督學(xué)習(xí) (以聚類為代表)
“泛化”能力:習(xí)得模型適用于新樣本的能力梢莽。
通常假設(shè)樣本空間中全體樣本服從一個未知”分布“D萧豆,我們獲得的每個樣本都是獨(dú)立地從這個分布上采樣獲取的,即”獨(dú)立同分布“
假設(shè)空間:
歸納和演繹是科學(xué)推理的兩大基本手段昏名。兩者亦是相反的涮雷,歸納是從特殊到一般的“泛化”過程,從具體推出一般轻局;后者則是從基本原理推出具體情況洪鸭。
機(jī)器學(xué)習(xí)是從樣例學(xué)習(xí),習(xí)得一般性的模型嗽交,自然就是歸納的過程卿嘲,故稱“歸納學(xué)習(xí)”。
狹義的“歸納學(xué)習(xí)”要求從訓(xùn)練數(shù)據(jù)中習(xí)得概念夫壁,亦稱“概念學(xué)習(xí)”拾枣。了解概念學(xué)習(xí)對理解機(jī)器學(xué)習(xí)的一些基礎(chǔ)思想有幫助。
布爾概念學(xué)習(xí):即對“是”與“不是”這樣可表示為0/1布爾值的目標(biāo)概念學(xué)習(xí)盒让。簡單地表達(dá)出來梅肤,便是“有什么屬性的東西是好東西,而有什么屬性的東西是壞東西”這樣一個概念邑茄。例如西瓜的好壞姨蝴,用布爾表達(dá)式:"好瓜(色澤 = ?)
(根蒂 = ?)
(敲聲 =?)", "?"表示未確定的值肺缕∽笠剑考慮到屬性取值有一種可能是什么值都合適,于是用通配符“*”來表示同木。于是通過訓(xùn)練集學(xué)習(xí)浮梢,把“?”的值確定下來彤路。在此過程中秕硝,會在一個假設(shè)空間進(jìn)行搜索,搜索與訓(xùn)練集“匹配”的假設(shè)(能夠?qū)⒂?xùn)練集中的瓜正確判斷的假設(shè))洲尊。
假設(shè)空間的屬性越多远豺,值的類型越多,假設(shè)空間越大坞嘀。通俗地講躯护,假設(shè)空間就是一個列出所有假設(shè)的集合。所以訓(xùn)練集如果足夠大姆吭,其習(xí)得的概念的“泛化”就強(qiáng)榛做。
對假設(shè)空間的搜索過程也有不同的策略:自頂向下、從一般到特殊内狸、自底向上检眯、從特殊到一般等等。(搜索過程中可以不斷刪除與正例不一致的假設(shè)昆淡、和與反例一致的假設(shè)锰瘸,最終會得到與訓(xùn)練集一致的假設(shè))
學(xué)習(xí)過程中,可能會發(fā)現(xiàn)有多個假設(shè)與訓(xùn)練集一致昂灵,這將形成一個“假設(shè)集合”避凝,被稱為“版本空間”。
歸納偏好
如果假設(shè)空間中與訓(xùn)練集一致的假設(shè)中眨补,在解決問題時出現(xiàn)了矛盾管削。通俗地講就是,我現(xiàn)在要判斷一個東西是好是壞撑螺,那么這時我學(xué)習(xí)到了有3個假設(shè)可以進(jìn)行判斷含思,第一個假設(shè)判斷這個東西是好的,但是第二個假設(shè)判斷是壞的甘晤,第三個又是好的含潘。那么我們應(yīng)該采用哪個假設(shè)進(jìn)行判斷呢?
機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好线婚,稱為“歸納偏好”遏弱。
引導(dǎo)算法選擇“正確”偏好的原則:
“奧卡姆剃刀”原則:若有多個假設(shè)與觀察一致,則選最簡單的那個塞弊。
那樣又有問題了漱逸,什么叫“最簡單”?最簡單應(yīng)該是對應(yīng)具體學(xué)習(xí)問題的游沿。
這時候饰抒,要討論算法的相對優(yōu)劣,就必須要針對具體的學(xué)習(xí)問題奏候。如果考慮所有潛在的問題循集,所有算法的期望都是一樣的,并無優(yōu)劣蔗草。