1. 引言
模型和模式
模型泛指從數(shù)據(jù)中學(xué)得的結(jié)果
【模型】:指全局性結(jié)果(如一棵判斷什么是好瓜的決策樹(shù))
【模式】:指局部性的結(jié)果(如一條判斷好瓜的規(guī)則)
例如:色澤烏黑接谨、根蒂蜷縮生棍、敲聲濁響的是好瓜
2. 基本術(shù)語(yǔ)
2.1 數(shù)據(jù)相關(guān)
例如:x1=(色澤=青綠帽馋;根蒂=蜷縮;敲聲=濁響),x2=(色澤=烏黑;根蒂=稍蜷叁扫;敲聲=沉悶),x3=(色澤=淺白畜埋;根蒂=硬挺迫肖;敲聲=清脆)闪盔,......
【數(shù)據(jù)集(data set)】:上面這組記錄的集合
例如:這組西瓜的集合,x1=(色澤=青綠;根蒂=蜷縮酝枢;敲聲=濁響)府阀,x2=(色澤=烏黑渡冻;根蒂=稍蜷砾赔;敲聲=沉悶),x3=(色澤=淺白么翰;根蒂=硬挺牺汤;敲聲=清脆),......
【示例 (instance)或樣本 (sample)】:關(guān)于一個(gè)事件或?qū)ο蟮拿枋龅拿織l記錄
例如:對(duì)其中一個(gè)西瓜的描述浩嫌,x1=(色澤=青綠檐迟;根蒂=蜷縮;敲聲=濁響)
【屬性(attribute)或特征(feature)】:反應(yīng)事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng)
例如:色澤码耐,根蒂追迟,敲聲
【屬性值(attribute value)】:屬性上的取值
例如:色澤=青綠,根蒂=蜷縮骚腥,敲聲=濁響
【屬性空間(attribute space)敦间、樣本空間(sample space)或輸入空間(input space)】:屬性張成的空間
例如:以西瓜的三種屬性為三個(gè)坐標(biāo)軸,建立坐標(biāo)系得到的空間
【特征向量】:空間中的每個(gè)點(diǎn)對(duì)應(yīng)的坐標(biāo)向量
例如:X1就是一個(gè)特征向量
【數(shù)學(xué)表達(dá)】
一般的桦沉,令D表示包含m個(gè)示例(樣本)的數(shù)據(jù)集每瞒,xi表示每個(gè)示例(樣本)金闽,每個(gè)示例由d個(gè)屬性描述纯露,其中xij表示是示例(樣本)xi在第j個(gè)屬性的取值,d稱為維數(shù)
2.2 學(xué)習(xí)過(guò)程
【學(xué)習(xí)(learning)代芜、訓(xùn)練(training)】:從數(shù)據(jù)中學(xué)得模型的過(guò)程
例如:從西瓜樣本數(shù)據(jù)集中得到判斷好瓜的決策樹(shù)的過(guò)程
【訓(xùn)練數(shù)據(jù)(training data)埠褪、訓(xùn)練集(training set)】:訓(xùn)練過(guò)程中使用的數(shù)據(jù),是數(shù)據(jù)集的子集
例如:為得到判斷好瓜的決策樹(shù),我們從10000條對(duì)西瓜的描述的記錄中選擇其中的8000條記錄的作為訓(xùn)練數(shù)據(jù)
【訓(xùn)練樣本】:訓(xùn)練集中的每一個(gè)樣本
例如:8000條記錄中的每一條記錄都是一個(gè)樣本
【測(cè)試】:學(xué)得模型后钞速,使用其進(jìn)行預(yù)測(cè)的過(guò)程
例如:通過(guò)得到的判斷好瓜的決策樹(shù)贷掖,判斷一個(gè)西瓜是否是好瓜的過(guò)程
【測(cè)試數(shù)據(jù)】:測(cè)試過(guò)程中使用的數(shù)據(jù)
例如:我們從10000條對(duì)西瓜的描述的記錄中選擇剩下的2000條數(shù)據(jù)作為測(cè)試數(shù)據(jù)
【測(cè)試樣本】:測(cè)試集中的每一個(gè)樣本
例如:剩下的2000條記錄中的每一條記錄都是一個(gè)樣本
【假設(shè)】:學(xué)得模型對(duì)應(yīng)的關(guān)于數(shù)據(jù)的某種潛在規(guī)律
例如:學(xué)得的判斷好瓜的決策樹(shù)對(duì)應(yīng)的某種潛在規(guī)律就是一種假設(shè))
【真相、真實(shí)】:潛在規(guī)律的自身
例如:判斷好瓜決策樹(shù)對(duì)應(yīng)的“客觀上判斷好瓜的規(guī)律”可能與學(xué)習(xí)得到的判斷好瓜決策樹(shù)有出入
【學(xué)習(xí)目的】:為了找出或逼近真相
2.3 監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)
【標(biāo)記】:關(guān)于示例的結(jié)果的信息
例如:色澤=青綠渴语;根蒂=蜷縮苹威;敲聲=>濁響的西瓜是好瓜
【樣例】:擁有了標(biāo)記信息的示例
例如:((色澤=青綠;根蒂=蜷縮驾凶;敲聲=濁響)牙甫,好瓜)
【標(biāo)記空間、輸出空間】:所有標(biāo)記的集合
有監(jiān)督學(xué)習(xí)
對(duì)具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí)窟哺,以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測(cè)
所有的標(biāo)記(分類)是已知的。因此技肩,訓(xùn)練樣本的岐義性低
【分類】:預(yù)測(cè)的是離散值
例如:好瓜且轨,壞瓜
【回歸】:預(yù)測(cè)的是連續(xù)值
例如:西瓜的成熟度0.95/0.37
無(wú)監(jiān)督學(xué)習(xí)
對(duì)沒(méi)有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)
所有的標(biāo)記(分類)是未知的虚婿。因此旋奢,訓(xùn)練樣本的岐義性高
【聚類】:將訓(xùn)練集中的樣本分為若干組,每組稱為一個(gè)“簇”然痊,有助于我們了解數(shù)據(jù)內(nèi)在的規(guī)律黄绩,能為更深入地分析數(shù)據(jù)建立基礎(chǔ)
例如:“淺色瓜”、“深色瓜”玷过,在聚類學(xué)習(xí)中爽丹,“淺色瓜”、“深色瓜” 這些概念事先我們是不知道的辛蚊,而且學(xué)習(xí)過(guò)程中使用的樣本通常不擁有標(biāo)記信息
機(jī)器學(xué)習(xí)的目標(biāo)
機(jī)器學(xué)習(xí)的目標(biāo)是使學(xué)得的模型可以更好的適用于“新樣本”粤蝎,而不僅僅在訓(xùn)練樣本上工作的很好,也就是擁有比較強(qiáng)的泛化能力袋马,這樣能更好的適用于整個(gè)樣本空間初澎,因此我們希望訓(xùn)練集合能很好的反應(yīng)樣本空間的特性
通常假設(shè)樣本空間的全體樣本服從一個(gè)未知分布?,我們獲得的每個(gè)樣本都是獨(dú)立地從這個(gè)分布上采樣獲得的 虑凛,即“獨(dú)立同分布”碑宴;一般而言,訓(xùn)練樣本越多桑谍,得到關(guān)于D的信息就越多延柠,越有可能通過(guò)學(xué)習(xí)獲得強(qiáng)泛化能力的模型
【泛化能力】:學(xué)得模型適用于新樣本的能力
3. 假設(shè)空間
【歸納(induction)】:從特殊到一般的“泛化”過(guò)程,即從具體的事實(shí)歸結(jié)出一般性規(guī)律(機(jī)器學(xué)習(xí)顯然是一個(gè)歸納過(guò)程)
【演繹( deduction)】:從一般到特殊的“特化”過(guò)程锣披,即從基礎(chǔ)原理推演出具體情況
【假設(shè)空間】:所有的假設(shè)組成的空間
例如:(色澤=贞间?)&&(根蒂=贿条?)&&(敲聲=?)的可能取值所形成的假設(shè)組成增热。
如色澤有“青綠” “烏黑” “淺白”整以,還需要考慮色澤無(wú)論取什么值都合適,我們用通配符“*”表示峻仇,此外還要考慮極端情況:有可能“好瓜”這個(gè)概率根本不成立公黑,我們用O表示。若“色澤”摄咆、“根蒂”帆调、“敲聲”分別有3、2豆同、2中取值番刊。則假設(shè)空間的規(guī)模大小為4 x 3 x 3 + 1 = 37
【版本空間】:當(dāng)存在多個(gè)假設(shè)與訓(xùn)練集一致時(shí),這些與訓(xùn)練集一致的假設(shè)的集合
4. 歸納偏好
問(wèn)題:現(xiàn)在有三個(gè)與訓(xùn)練集一致的假設(shè)影锈,但是他們?cè)诿媾R新的樣本的時(shí)候芹务,卻產(chǎn)生不同的輸出
例如:對(duì)這個(gè)新瓜 (色澤=青綠;根蒂=蜷縮鸭廷;敲聲=沉悶)枣抱,如果采用好瓜<->(色澤= *)&&(根蒂=蜷縮)&&(敲聲=*)這個(gè)假設(shè)時(shí),它會(huì)被判斷為好瓜辆床,然而當(dāng)我們使用另外兩個(gè)假設(shè)時(shí)佳晶,它卻被判斷為不好的
【歸納偏好】:機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類型假設(shè)的偏好
任何一個(gè)有效的機(jī)器學(xué)習(xí)算法都必有其歸納偏好,否則它將被假設(shè)空間中看似在訓(xùn)練集上“等效”的假設(shè)所迷惑讼载,而無(wú)法產(chǎn)生確定的結(jié)果
例如:我們?cè)诿看芜M(jìn)行預(yù)測(cè)是隨機(jī)抽選訓(xùn)練集上等效的假設(shè)轿秧,那么對(duì)這個(gè)新瓜 (色澤=青綠;根蒂=蜷縮咨堤;敲聲=沉悶)菇篡,學(xué)習(xí)模型時(shí)而告訴我們它是好瓜,時(shí)而告訴我們它是不好的一喘,這顯然沒(méi)有意義
【“奧卡姆剃刀”原則】:若多個(gè)假設(shè)與觀察一致驱还,則選擇“最簡(jiǎn)單”的那個(gè),這個(gè)“簡(jiǎn)單”并不簡(jiǎn)單
例如:對(duì)于上面三個(gè)與訓(xùn)練集一致的假設(shè)凸克,哪一個(gè)更簡(jiǎn)單呢议蟆?
【“沒(méi)有免費(fèi)的午餐”定理(NFL)】:無(wú)論學(xué)習(xí)算法多聰明、學(xué)習(xí)算法多笨拙萎战,他們的期望性能相同咐容,但是有一個(gè)重要的前提:所有“問(wèn)題”出現(xiàn)的機(jī)會(huì)相同或所有的問(wèn)題同等重要
實(shí)際情況是很多時(shí)候我們只關(guān)注自己試圖解決的問(wèn)題,希望為它找到一個(gè)解決方案撞鹉,至于其他問(wèn)題甚至是相似的問(wèn)題我們并不關(guān)心
NPL定理假設(shè)了?f 的均勻分布疟丙,而實(shí)際情況并非如此
NPL定理告訴我們脫離具體的問(wèn)題颖侄,空泛地討論“什么學(xué)習(xí)算法更好”毫無(wú)意義鸟雏,因?yàn)槿艨紤]所有潛在的問(wèn)題享郊,則所有算法一樣好