《機(jī)器學(xué)習(xí)》— 第1章 緒論

1. 引言

模型和模式

模型泛指從數(shù)據(jù)中學(xué)得的結(jié)果

【模型】:指全局性結(jié)果(如一棵判斷什么是好瓜的決策樹(shù))


判斷一個(gè)西瓜是否是好瓜的決策樹(shù)

【模式】:指局部性的結(jié)果(如一條判斷好瓜的規(guī)則)

例如:色澤烏黑接谨、根蒂蜷縮生棍、敲聲濁響的是好瓜


一條判斷好瓜的規(guī)則

2. 基本術(shù)語(yǔ)

2.1 數(shù)據(jù)相關(guān)

例如:x1=(色澤=青綠帽馋;根蒂=蜷縮;敲聲=濁響),x2=(色澤=烏黑;根蒂=稍蜷叁扫;敲聲=沉悶),x3=(色澤=淺白畜埋;根蒂=硬挺迫肖;敲聲=清脆)闪盔,......

【數(shù)據(jù)集(data set)】:上面這組記錄的集合

例如:這組西瓜的集合,x1=(色澤=青綠;根蒂=蜷縮酝枢;敲聲=濁響)府阀,x2=(色澤=烏黑渡冻;根蒂=稍蜷砾赔;敲聲=沉悶),x3=(色澤=淺白么翰;根蒂=硬挺牺汤;敲聲=清脆),......

【示例 (instance)或樣本 (sample)】:關(guān)于一個(gè)事件或?qū)ο蟮拿枋龅拿織l記錄

例如:對(duì)其中一個(gè)西瓜的描述浩嫌,x1=(色澤=青綠檐迟;根蒂=蜷縮;敲聲=濁響)

【屬性(attribute)或特征(feature)】:反應(yīng)事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng)

例如:色澤码耐,根蒂追迟,敲聲

【屬性值(attribute value)】:屬性上的取值

例如:色澤=青綠,根蒂=蜷縮骚腥,敲聲=濁響

【屬性空間(attribute space)敦间、樣本空間(sample space)或輸入空間(input space)】:屬性張成的空間

例如:以西瓜的三種屬性為三個(gè)坐標(biāo)軸,建立坐標(biāo)系得到的空間


屬性空間

【特征向量】:空間中的每個(gè)點(diǎn)對(duì)應(yīng)的坐標(biāo)向量

例如:X1就是一個(gè)特征向量


特征向量


【數(shù)學(xué)表達(dá)】

一般的桦沉,令D表示包含m個(gè)示例(樣本)的數(shù)據(jù)集每瞒,xi表示每個(gè)示例(樣本)金闽,每個(gè)示例由d個(gè)屬性描述纯露,其中xij表示是示例(樣本)xi在第j個(gè)屬性的取值,d稱為維數(shù)

數(shù)據(jù)集
示例


2.2 學(xué)習(xí)過(guò)程

【學(xué)習(xí)(learning)代芜、訓(xùn)練(training)】:從數(shù)據(jù)中學(xué)得模型的過(guò)程

例如:從西瓜樣本數(shù)據(jù)集中得到判斷好瓜的決策樹(shù)的過(guò)程

【訓(xùn)練數(shù)據(jù)(training data)埠褪、訓(xùn)練集(training set)】:訓(xùn)練過(guò)程中使用的數(shù)據(jù),是數(shù)據(jù)集的子集

例如:為得到判斷好瓜的決策樹(shù),我們從10000條對(duì)西瓜的描述的記錄中選擇其中的8000條記錄的作為訓(xùn)練數(shù)據(jù)

【訓(xùn)練樣本】:訓(xùn)練集中的每一個(gè)樣本

例如:8000條記錄中的每一條記錄都是一個(gè)樣本

【測(cè)試】:學(xué)得模型后钞速,使用其進(jìn)行預(yù)測(cè)的過(guò)程

例如:通過(guò)得到的判斷好瓜的決策樹(shù)贷掖,判斷一個(gè)西瓜是否是好瓜的過(guò)程

【測(cè)試數(shù)據(jù)】:測(cè)試過(guò)程中使用的數(shù)據(jù)

例如:我們從10000條對(duì)西瓜的描述的記錄中選擇剩下的2000條數(shù)據(jù)作為測(cè)試數(shù)據(jù)

【測(cè)試樣本】:測(cè)試集中的每一個(gè)樣本

例如:剩下的2000條記錄中的每一條記錄都是一個(gè)樣本

【假設(shè)】:學(xué)得模型對(duì)應(yīng)的關(guān)于數(shù)據(jù)的某種潛在規(guī)律

例如:學(xué)得的判斷好瓜的決策樹(shù)對(duì)應(yīng)的某種潛在規(guī)律就是一種假設(shè))

【真相、真實(shí)】:潛在規(guī)律的自身

例如:判斷好瓜決策樹(shù)對(duì)應(yīng)的“客觀上判斷好瓜的規(guī)律”可能與學(xué)習(xí)得到的判斷好瓜決策樹(shù)有出入

學(xué)習(xí)目的:為了找出或逼近真相

2.3 監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)

【標(biāo)記】:關(guān)于示例的結(jié)果的信息

例如:色澤=青綠渴语;根蒂=蜷縮苹威;敲聲=>濁響的西瓜是好瓜

【樣例】:擁有了標(biāo)記信息的示例

例如:((色澤=青綠;根蒂=蜷縮驾凶;敲聲=濁響)牙甫,好瓜)

【標(biāo)記空間、輸出空間】:所有標(biāo)記的集合

(xi调违,yi)表示第i個(gè)樣例

有監(jiān)督學(xué)習(xí)

對(duì)具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí)窟哺,以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測(cè)

所有的標(biāo)記(分類)是已知的。因此技肩,訓(xùn)練樣本的岐義性低

【分類】:預(yù)測(cè)的是離散值

例如:好瓜且轨,壞瓜

【回歸】:預(yù)測(cè)的是連續(xù)值

例如:西瓜的成熟度0.95/0.37

無(wú)監(jiān)督學(xué)習(xí)

對(duì)沒(méi)有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)

所有的標(biāo)記(分類)是未知的虚婿。因此旋奢,訓(xùn)練樣本的岐義性高

【聚類】:將訓(xùn)練集中的樣本分為若干組,每組稱為一個(gè)“簇”然痊,有助于我們了解數(shù)據(jù)內(nèi)在的規(guī)律黄绩,能為更深入地分析數(shù)據(jù)建立基礎(chǔ)

例如:“淺色瓜”、“深色瓜”玷过,在聚類學(xué)習(xí)中爽丹,“淺色瓜”、“深色瓜” 這些概念事先我們是不知道的辛蚊,而且學(xué)習(xí)過(guò)程中使用的樣本通常不擁有標(biāo)記信息

機(jī)器學(xué)習(xí)的目標(biāo)

機(jī)器學(xué)習(xí)的目標(biāo)是使學(xué)得的模型可以更好的適用于“新樣本”粤蝎,而不僅僅在訓(xùn)練樣本上工作的很好,也就是擁有比較強(qiáng)的泛化能力袋马,這樣能更好的適用于整個(gè)樣本空間初澎,因此我們希望訓(xùn)練集合能很好的反應(yīng)樣本空間的特性

通常假設(shè)樣本空間的全體樣本服從一個(gè)未知分布?,我們獲得的每個(gè)樣本都是獨(dú)立地從這個(gè)分布上采樣獲得的 虑凛,即“獨(dú)立同分布”碑宴;一般而言,訓(xùn)練樣本越多桑谍,得到關(guān)于D的信息就越多延柠,越有可能通過(guò)學(xué)習(xí)獲得強(qiáng)泛化能力的模型

【泛化能力】:學(xué)得模型適用于新樣本的能力

3. 假設(shè)空間

【歸納(induction)】:從特殊到一般的“泛化”過(guò)程,即從具體的事實(shí)歸結(jié)出一般性規(guī)律(機(jī)器學(xué)習(xí)顯然是一個(gè)歸納過(guò)程)

演繹( deduction)】:從一般到特殊的“特化”過(guò)程锣披,即從基礎(chǔ)原理推演出具體情況

【假設(shè)空間】:所有的假設(shè)組成的空間

例如:(色澤=贞间?)&&(根蒂=贿条?)&&(敲聲=?)的可能取值所形成的假設(shè)組成增热。

如色澤有“青綠” “烏黑” “淺白”整以,還需要考慮色澤無(wú)論取什么值都合適,我們用通配符“*”表示峻仇,此外還要考慮極端情況:有可能“好瓜”這個(gè)概率根本不成立公黑,我們用O表示。若“色澤”摄咆、“根蒂”帆调、“敲聲”分別有3、2豆同、2中取值番刊。則假設(shè)空間的規(guī)模大小為4 x 3 x 3 + 1 = 37


西瓜問(wèn)題的假設(shè)空間

【版本空間】:當(dāng)存在多個(gè)假設(shè)與訓(xùn)練集一致時(shí),這些與訓(xùn)練集一致的假設(shè)的集合


西瓜問(wèn)題的版本空間


4. 歸納偏好

問(wèn)題:現(xiàn)在有三個(gè)與訓(xùn)練集一致的假設(shè)影锈,但是他們?cè)诿媾R新的樣本的時(shí)候芹务,卻產(chǎn)生不同的輸出

例如:對(duì)這個(gè)新瓜 (色澤=青綠;根蒂=蜷縮鸭廷;敲聲=沉悶)枣抱,如果采用好瓜<->(色澤= *)&&(根蒂=蜷縮)&&(敲聲=*)這個(gè)假設(shè)時(shí),它會(huì)被判斷為好瓜辆床,然而當(dāng)我們使用另外兩個(gè)假設(shè)時(shí)佳晶,它卻被判斷為不好的

【歸納偏好】:機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類型假設(shè)的偏好

任何一個(gè)有效的機(jī)器學(xué)習(xí)算法都必有其歸納偏好,否則它將被假設(shè)空間中看似在訓(xùn)練集上“等效”的假設(shè)所迷惑讼载,而無(wú)法產(chǎn)生確定的結(jié)果

例如:我們?cè)诿看芜M(jìn)行預(yù)測(cè)是隨機(jī)抽選訓(xùn)練集上等效的假設(shè)轿秧,那么對(duì)這個(gè)新瓜 (色澤=青綠;根蒂=蜷縮咨堤;敲聲=沉悶)菇篡,學(xué)習(xí)模型時(shí)而告訴我們它是好瓜,時(shí)而告訴我們它是不好的一喘,這顯然沒(méi)有意義

【“奧卡姆剃刀”原則】:若多個(gè)假設(shè)與觀察一致驱还,則選擇“最簡(jiǎn)單”的那個(gè),這個(gè)“簡(jiǎn)單”并不簡(jiǎn)單

例如:對(duì)于上面三個(gè)與訓(xùn)練集一致的假設(shè)凸克,哪一個(gè)更簡(jiǎn)單呢议蟆?

【“沒(méi)有免費(fèi)的午餐”定理(NFL)】:無(wú)論學(xué)習(xí)算法多聰明、學(xué)習(xí)算法多笨拙萎战,他們的期望性能相同咐容,但是有一個(gè)重要的前提:所有“問(wèn)題”出現(xiàn)的機(jī)會(huì)相同或所有的問(wèn)題同等重要

實(shí)際情況是很多時(shí)候我們只關(guān)注自己試圖解決的問(wèn)題,希望為它找到一個(gè)解決方案撞鹉,至于其他問(wèn)題甚至是相似的問(wèn)題我們并不關(guān)心

NPL定理假設(shè)了?f 的均勻分布疟丙,而實(shí)際情況并非如此

NPL定理告訴我們脫離具體的問(wèn)題颖侄,空泛地討論“什么學(xué)習(xí)算法更好”毫無(wú)意義鸟雏,因?yàn)槿艨紤]所有潛在的問(wèn)題享郊,則所有算法一樣好

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市孝鹊,隨后出現(xiàn)的幾起案子炊琉,更是在濱河造成了極大的恐慌,老刑警劉巖又活,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件苔咪,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡柳骄,警方通過(guò)查閱死者的電腦和手機(jī)团赏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)耐薯,“玉大人舔清,你說(shuō)我怎么就攤上這事∏酰” “怎么了体谒?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)臼婆。 經(jīng)常有香客問(wèn)我抒痒,道長(zhǎng),這世上最難降的妖魔是什么颁褂? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任故响,我火速辦了婚禮,結(jié)果婚禮上颁独,老公的妹妹穿的比我還像新娘被去。我一直安慰自己,他們只是感情好奖唯,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布惨缆。 她就那樣靜靜地躺著,像睡著了一般丰捷。 火紅的嫁衣襯著肌膚如雪坯墨。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天病往,我揣著相機(jī)與錄音捣染,去河邊找鬼。 笑死停巷,一個(gè)胖子當(dāng)著我的面吹牛耍攘,可吹牛的內(nèi)容都是我干的榕栏。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼蕾各,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼扒磁!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起式曲,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤妨托,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后吝羞,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體兰伤,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年钧排,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了敦腔。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡恨溜,死狀恐怖符衔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情筒捺,我是刑警寧澤柏腻,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站系吭,受9級(jí)特大地震影響五嫂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜肯尺,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一沃缘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧则吟,春花似錦槐臀、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至敬扛,卻和暖如春晰洒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背啥箭。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工谍珊, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人急侥。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓砌滞,卻偏偏與公主長(zhǎng)得像侮邀,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子贝润,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容