目錄:
1.1整體大綱
1.2基本術(shù)語
1.3假設(shè)空間
1.4歸納偏好
1.1機器學(xué)習(xí)的整體大綱:
經(jīng)驗與模型的關(guān)系:經(jīng)驗(在計算機系統(tǒng)中锈至,叫數(shù)據(jù))產(chǎn)生模型(學(xué)習(xí)算法),學(xué)習(xí)算法利用經(jīng)驗(數(shù)據(jù))提供相應(yīng)的判斷。
按照我的理解债蜜,就是整合數(shù)據(jù)和分析數(shù)據(jù)的一個過程闻丑。我們通過算法关顷、模型來對數(shù)據(jù)(足夠多)進行分析和作出判斷邢享。應(yīng)該把重點放在模型上面洽腺,即如何選擇適合的算法脚粟、模型。
1.2基本術(shù)語的解釋
"色澤" "根蒂" "敲聲"蘸朋,稱為")副主" (attribute) 或"特征" (feature);
?屬性上的取值核无,例如"青綠" "烏黑",稱為")副主值" (attribute va1ue).?
屬性行成的空間稱為"屬性空間" (attribute space)藕坯、 "樣本空間" (samp1e space)或"輸入 空間"
D = {Xl团南,X2..噪沙, Xm} }表示包含 m 個示例的數(shù)據(jù)集,每個示例集由d個屬性吐根,每個示例Xi=(Xi1正歼,Xi2,……Xid)拷橘,Xij是Xi在第i個屬性上的取值朋腋。
擁有了標(biāo)記信息的示例,則稱為"樣例" (examp1e). 一般地膜楷,用(Xi, Yi) 表示第 4 個樣例贞奋,其中執(zhí) y屬于Y 是示例 Xi 的標(biāo)記赌厅, Y 是所有標(biāo)記的集合, 亦稱"標(biāo)記空間"或"輸出空間
監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí):學(xué)習(xí)任務(wù)可以分為兩類轿塔,監(jiān)督學(xué)習(xí)(分類特愿、回歸,有標(biāo)記)和無監(jiān)督學(xué)習(xí)(聚類勾缭,無標(biāo)記)
分類:預(yù)測的是離散值揍障,如“好瓜”“壞瓜”(回歸是對真實值的一種逼近預(yù)測)
回歸:預(yù)測的是連續(xù)值,如西瓜成熟度0.65俩由,0.78(分類并沒有逼近的概念毒嫡,最終正確結(jié)果只有一個,錯誤的就是錯誤的)
聚類:學(xué)習(xí)算法在做聚類分析的時候是自動產(chǎn)生的類別幻梯,“淺色瓜”“深色瓜”這樣的概念我們事先是不知道的兜畸,樣本無標(biāo)記信息
特征向量:即示例,反映事件或?qū)ο笤谀撤矫娴男再|(zhì)碘梢。例如:西瓜的色澤咬摇,敲聲
二分類:正類,反類煞躬。樣本空間——>輸出空間肛鹏;輸出空間={+1,-1}或{0恩沛,1}
多分類:|輸出空間|>2
1.3假設(shè)空間
假設(shè)空間:每種特征的組合都認為是一個假設(shè)(hypothesis)在扰,所有假設(shè)的集合我們稱之為假設(shè)空間。如果“色澤”复唤,“根蒂”健田,“敲聲”分別有3,2佛纫,2種可能妓局,(每種特征值都要加一種任意值可能)那么假設(shè)空間的規(guī)模就是4x3x3 + 1 = 37总放。最后結(jié)果加1是由于存在一種可能就是根本沒有“好瓜”這個概念,或者說“好瓜”跟這些特征都沒有關(guān)系好爬。
假設(shè)的表示一旦確定局雄,假設(shè)空間及其規(guī)模大小就確定了. 這里我們的假設(shè)空間由形如"(色澤=?)八(根蒂=?) ^ (敲聲=?)"的可能取值 所形成的假設(shè)組成
1.4歸納偏好
歸納偏好:如果沒有偏好,所有的假設(shè)都是等效的存炮,那么輸出的判斷將會沒有意義炬搭。
如何選擇好的算法?
第一穆桂,
奧卡姆剃刀原則:(若有多個假設(shè)與觀察一致宫盔,則選最簡單的那個);
奧卡姆剃刀不適用:在問題出現(xiàn)的機會相同享完,所有問題同等重要灼芭,對于任意兩個學(xué)習(xí)算法,其總誤差相等般又,期望值相同彼绷。
第二,
NFL定理:算法不是萬能的茴迁,具體問題具體分析寄悯。