第一章 緒論

寫在前面關(guān)于機(jī)器學(xué)習(xí)嫂便,一開始我是拒絕的!因?yàn)閷τ谝粋€水平有限狮含、頭腦不發(fā)達(dá)顽悼、沒有經(jīng)驗(yàn)的大學(xué)生來說,無疑是樸實(shí)無華且枯燥的几迄,但最終還是在新時代引領(lǐng)之下,邁向了機(jī)器學(xué)習(xí)的領(lǐng)域冰评,我便從本書(西瓜書)開始映胁,寫一寫總結(jié)的東西,記錄學(xué)習(xí)的過程甲雅,雖然有些乏力解孙,但盡量做到理解坑填。必有或有紕漏,水平有限弛姜,望讀者勿怪脐瑰!

1. 什么是機(jī)器學(xué)習(xí)?

機(jī)器學(xué)習(xí)致力于研究如何通過計(jì)算的手段廷臼,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能苍在。其形式化定義:

假設(shè)用P來評估計(jì)算機(jī)程序在某任務(wù)類T上的性能,若一個程序通過利用經(jīng)驗(yàn)E在T中任務(wù)上獲得了性能改善荠商,則我們就說關(guān)于T和P寂恬,該程序?qū)進(jìn)行了學(xué)習(xí)。

基本術(shù)語:

數(shù)據(jù)即是關(guān)于某研究對象或事件的一條條記錄莱没,這些記錄的集合被稱為“數(shù)據(jù)集”初肉,每條記錄是關(guān)于對象或事件的描述,以屬性特征來進(jìn)行描述饰躲,屬性上的取值就叫“屬性值”,屬性張成的空間叫做“屬性空間”或者”樣本空間“(以屬性為坐標(biāo)軸形成的一個空間)牙咏,空間中每個點(diǎn)對應(yīng)一個坐標(biāo)向量,于是把示例稱為一個“特征向量”嘹裂。

D = {x1,x2,...,xm}表示包含m個示例的數(shù)據(jù)集眠寿。
每個示例由d個屬性描述:
xi={xi1,xi2,...,xid}是d維屬性空間\chi中的一個向量,xij是xi在第j個屬性上的取值焦蘑,d稱為樣品xi的“維數(shù)”盯拱。
從數(shù)據(jù)中習(xí)得模型的過程就稱為“學(xué)習(xí)”或者“訓(xùn)練”,而這個過程通過執(zhí)行某個學(xué)習(xí)算法來完成例嘱。訓(xùn)練過程中用到的數(shù)據(jù)就稱作“訓(xùn)練數(shù)據(jù)”狡逢,其中每個樣本就稱作“訓(xùn)練樣本”,這些樣本就成一個集合就叫“訓(xùn)練集”拼卵。

若我們想要預(yù)測的是離散值奢浑,此類學(xué)習(xí)任務(wù)稱為分類(瓜好、瓜壞)腋腮;
若想預(yù)測連續(xù)值雀彼,則稱為回歸(瓜熟程度0.92、0.27)即寡。

習(xí)得模型后徊哑,使用模型進(jìn)行預(yù)測的過程稱為“測試”

聚類:將訓(xùn)練集中的物體或事件分成若干組聪富,每組稱為一個“簇”莺丑。

根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)分為:
1.監(jiān)督學(xué)習(xí) (以分類、回歸為代表)
2.非監(jiān)督學(xué)習(xí) (以聚類為代表)

“泛化”能力:習(xí)得模型適用于新樣本的能力梢莽。

通常假設(shè)樣本空間中全體樣本服從一個未知”分布“D萧豆,我們獲得的每個樣本都是獨(dú)立地從這個分布上采樣獲取的,即”獨(dú)立同分布“

假設(shè)空間:

歸納演繹是科學(xué)推理的兩大基本手段昏名。兩者亦是相反的涮雷,歸納是從特殊到一般的“泛化”過程,從具體推出一般轻局;后者則是從基本原理推出具體情況洪鸭。
機(jī)器學(xué)習(xí)是從樣例學(xué)習(xí),習(xí)得一般性的模型嗽交,自然就是歸納的過程卿嘲,故稱“歸納學(xué)習(xí)”
狹義的“歸納學(xué)習(xí)”要求從訓(xùn)練數(shù)據(jù)中習(xí)得概念夫壁,亦稱“概念學(xué)習(xí)”拾枣。了解概念學(xué)習(xí)對理解機(jī)器學(xué)習(xí)的一些基礎(chǔ)思想有幫助。
布爾概念學(xué)習(xí):即對“是”與“不是”這樣可表示為0/1布爾值的目標(biāo)概念學(xué)習(xí)盒让。簡單地表達(dá)出來梅肤,便是“有什么屬性的東西是好東西,而有什么屬性的東西是壞東西”這樣一個概念邑茄。例如西瓜的好壞姨蝴,用布爾表達(dá)式:"好瓜\Leftrightarrow(色澤 = ?)\wedge(根蒂 = ?)\wedge(敲聲 =?)", "?"表示未確定的值肺缕∽笠剑考慮到屬性取值有一種可能是什么值都合適,于是用通配符“*”來表示同木。于是通過訓(xùn)練集學(xué)習(xí)浮梢,把“?”的值確定下來彤路。在此過程中秕硝,會在一個假設(shè)空間進(jìn)行搜索,搜索與訓(xùn)練集“匹配”的假設(shè)能夠?qū)⒂?xùn)練集中的瓜正確判斷的假設(shè))洲尊。

假設(shè)空間的屬性越多远豺,值的類型越多,假設(shè)空間越大坞嘀。通俗地講躯护,假設(shè)空間就是一個列出所有假設(shè)的集合。所以訓(xùn)練集如果足夠大姆吭,其習(xí)得的概念的“泛化”就強(qiáng)榛做。

對假設(shè)空間的搜索過程也有不同的策略:自頂向下、從一般到特殊内狸、自底向上检眯、從特殊到一般等等。(搜索過程中可以不斷刪除與正例不一致的假設(shè)昆淡、和與反例一致的假設(shè)锰瘸,最終會得到與訓(xùn)練集一致的假設(shè))
學(xué)習(xí)過程中,可能會發(fā)現(xiàn)有多個假設(shè)與訓(xùn)練集一致昂灵,這將形成一個“假設(shè)集合”避凝,被稱為“版本空間”

歸納偏好

如果假設(shè)空間中與訓(xùn)練集一致的假設(shè)中眨补,在解決問題時出現(xiàn)了矛盾管削。通俗地講就是,我現(xiàn)在要判斷一個東西是好是壞撑螺,那么這時我學(xué)習(xí)到了有3個假設(shè)可以進(jìn)行判斷含思,第一個假設(shè)判斷這個東西是好的,但是第二個假設(shè)判斷是壞的甘晤,第三個又是好的含潘。那么我們應(yīng)該采用哪個假設(shè)進(jìn)行判斷呢?
機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好线婚,稱為“歸納偏好”遏弱。
引導(dǎo)算法選擇“正確”偏好的原則
“奧卡姆剃刀”原則:若有多個假設(shè)與觀察一致,則選最簡單的那個塞弊。
那樣又有問題了漱逸,什么叫“最簡單”?最簡單應(yīng)該是對應(yīng)具體學(xué)習(xí)問題的游沿。
這時候饰抒,要討論算法的相對優(yōu)劣,就必須要針對具體的學(xué)習(xí)問題奏候。如果考慮所有潛在的問題循集,所有算法的期望都是一樣的,并無優(yōu)劣蔗草。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末咒彤,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子咒精,更是在濱河造成了極大的恐慌镶柱,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件模叙,死亡現(xiàn)場離奇詭異歇拆,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進(jìn)店門故觅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來厂庇,“玉大人,你說我怎么就攤上這事输吏∪酰” “怎么了?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵贯溅,是天一觀的道長拄氯。 經(jīng)常有香客問我,道長它浅,這世上最難降的妖魔是什么译柏? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮姐霍,結(jié)果婚禮上鄙麦,老公的妹妹穿的比我還像新娘。我一直安慰自己邮弹,他們只是感情好黔衡,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著腌乡,像睡著了一般盟劫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上与纽,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天侣签,我揣著相機(jī)與錄音,去河邊找鬼急迂。 笑死影所,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的僚碎。 我是一名探鬼主播猴娩,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼勺阐!你這毒婦竟也來了卷中?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤渊抽,失蹤者是張志新(化名)和其女友劉穎蟆豫,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體懒闷,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡十减,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年栈幸,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片帮辟。...
    茶點(diǎn)故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡速址,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出织阅,到底是詐尸還是另有隱情壳繁,我是刑警寧澤震捣,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布荔棉,位于F島的核電站,受9級特大地震影響蒿赢,放射性物質(zhì)發(fā)生泄漏润樱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一羡棵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦昭灵、人聲如沸苛聘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赂蕴。三九已至,卻和暖如春舶胀,著一層夾襖步出監(jiān)牢的瞬間概说,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工嚣伐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留糖赔,地道東北人。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓轩端,卻偏偏與公主長得像放典,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子基茵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評論 2 359