機器學(xué)習(xí)引論

一打毛、什么是機器學(xué)習(xí)

機器學(xué)習(xí)研究的是計算機怎么模擬人類的行為速蕊,以獲取新的知識和技能,并重新組織已有的知識結(jié)構(gòu)乖仇,使之不斷改善

自身憾儒。簡單一點說询兴,就是計算機自動從數(shù)據(jù)中學(xué)習(xí)規(guī)律和模式,并應(yīng)用于解決新問題起趾。比如給定數(shù)據(jù)(X1,Y1), (X2,Y2), …

,(Xn,Yn)诗舰,通過算法機器自動學(xué)習(xí)X和Y之間的關(guān)系,從而對新的Xi训裆,能夠預(yù)測Yi眶根,比如通過身高預(yù)測性別、預(yù)測體重等边琉。

機器學(xué)習(xí)關(guān)注的問題

并非所有問題都適合用機器學(xué)習(xí)解決属百,如果邏輯清晰的問題用規(guī)則就能很高效和準確解決。也沒有一個機器學(xué)習(xí)算法

可以通用于所有問題变姨。機器學(xué)習(xí)到底關(guān)心和解決什么樣的問題族扰?

1、分類問題

根據(jù)數(shù)據(jù)樣本上抽取出的特征定欧,判定其屬于 有限 個類別中的哪一個渔呵,比如

垃圾郵件識別:1 垃圾郵件,2 正常郵件

文本情感分析:1 褒砍鸠,2 貶

圖像內(nèi)容識別識別(結(jié)果類別:1厘肮、喵星人 2、汪星人 3睦番、人類 4、草泥馬 5耍属、都不是)托嚣。

2、回歸問題

根據(jù)數(shù)據(jù)樣本上抽取的特征厚骗,預(yù)測一個連續(xù)值的結(jié)果示启,比如

《速度與激情》票房

《速度與激情》票房

廣州2個月后房價

3、聚類

根據(jù)數(shù)據(jù)樣本上抽取出的特征领舰,相近或相關(guān)的樣本聚在一起夫嗓,比如:

新聞分類

用戶群體劃分

再把上述的問題劃分到機器學(xué)習(xí)2個分類上:

分類和回歸問題需要已知結(jié)果的數(shù)據(jù)做訓(xùn)練,屬于“監(jiān)督學(xué)習(xí)”

聚類問題不需要已知標簽進行訓(xùn)練冲秽,屬于“非監(jiān)督學(xué)習(xí)”

機器學(xué)習(xí)在以下熱點有非常多的應(yīng)用:

1.計算機視覺

典型的應(yīng)用包括:人臉識別舍咖、車牌識別、掃描文字識別锉桑、圖片內(nèi)容識別排霉、圖片搜索等等。

2.自然語言處理

典型的應(yīng)用包括:搜索引擎智能匹配民轴、文本內(nèi)容理解攻柠、文本情緒判斷球订,語音識別、輸入法瑰钮、機器翻譯等等冒滩。

3.社會網(wǎng)絡(luò)分析

典型的應(yīng)用包括:用戶畫像、網(wǎng)絡(luò)關(guān)聯(lián)分析浪谴、欺詐作弊發(fā)現(xiàn)开睡、熱點發(fā)現(xiàn)等等。

4.推薦

典型的應(yīng)用包括:蝦米音樂的“歌曲推薦”较店,某寶的“猜你喜歡”等等士八。


二、基于規(guī)則

三梁呈、基于模型-機器學(xué)習(xí)

四婚度、基本概念

輸入空間 :輸入所有可能取值集合

輸出空間 :輸出所有可能取值集合

特征空間 :每個具體的輸入是一個實例,通常由 特征向量 表示官卡,特征向量存在的空間稱為特征空間蝗茁。特征空間的每一維對應(yīng)于一個特征。

假設(shè)空間 :學(xué)習(xí)的目的在于學(xué)習(xí)一個有輸入到輸出的 映射 寻咒,映射由模型來表示哮翘,模型屬于由輸入空間到輸出空間的映射。集合毛秘,這個集合稱為假設(shè)空間饭寺。

輸入變量X和輸出變量Y有不同的類型,可以是連續(xù)叫挟,也可以是離散的艰匙。輸入和輸出變量均為連續(xù)變量的預(yù)測問題稱為 回歸問題 ;輸出變量為有限個離散變量的預(yù)測問題稱為 分類問題

五抹恳、機器學(xué)習(xí)三要素

統(tǒng)計學(xué)習(xí)=模型+策略+算法

模型:所要學(xué)習(xí)的條件概率分布或決策函數(shù)

策略:從假設(shè)空間中按照一定的準則去選擇最優(yōu)的模型员凝?損失函數(shù)和風(fēng)險函數(shù)

算法:如何高效找到模型中未知的最優(yōu)參數(shù)

1.模型-規(guī)律

模型通常分為決策函數(shù)或條件概率分布

決策函數(shù):

條件概率分布:

2.策略 ---模型好不好

評估模型的好壞,使用損失函數(shù)來進行度量奋献,模型給出的值與實際真實值存在的差距健霹。

損失函數(shù)度量模型一次預(yù)測的好壞 ,常用的損失函數(shù)有:


期望風(fēng)險

由于模型的輸入和輸出(X,Y)是隨機變量瓶蚂,遵循聯(lián)合分布P(X,Y),所以損失函數(shù)的期望是

這是理論上模型f(x)關(guān)于聯(lián)合分布P(X,Y)的平均意義下的損失糖埋,稱為 風(fēng)險函數(shù) (risk function)或 期望損失 (expected loss)。

機器學(xué)習(xí)的目標就是選擇 期望風(fēng)險最小的模型 扬跋,但由于 聯(lián)合分布P(X,Y)是未知 的阶捆,E不能直接計算 。

經(jīng)驗風(fēng)險

模型f(X)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為 經(jīng)驗風(fēng)險 (empirical risk)或 經(jīng)驗損失 (empirical loss),記作

?期望風(fēng)險是模型關(guān)于聯(lián)合分布的期望損失洒试,經(jīng)驗風(fēng)險是模型關(guān)于訓(xùn)練樣本集的平均損失 倍奢。依據(jù)大數(shù)定律,當(dāng)樣本N趨于無窮時垒棋,經(jīng)驗風(fēng)險趨于期望風(fēng)險卒煞。但由于現(xiàn)實中訓(xùn)練樣本數(shù)有限甚至很小,使用經(jīng)驗風(fēng)險估計期望風(fēng)險常常并不理想叼架,所以要對 經(jīng)驗風(fēng)險進行一定的矯正 畔裕,這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個基本策略:經(jīng)驗風(fēng)險最小化和結(jié)構(gòu)風(fēng)險最小化。

經(jīng)驗風(fēng)險最小化

當(dāng)樣本容量夠大時乖订,經(jīng)驗風(fēng)險最小化能保證有很好的學(xué)習(xí)效果扮饶,比如 極大似然估計 就是經(jīng)驗風(fēng)險最小化的一個例子。當(dāng)模型是條件概率分布乍构,損失函數(shù)是對數(shù)損失函數(shù)時甜无,經(jīng)驗風(fēng)險最小化就等價于極大似然估計。

過擬合與模型選擇


上圖給出了M=0哥遮,M=1岂丘,M=3,M=9時的多項式函數(shù)擬合的情況眠饮,其中綠色曲線為真模型奥帘,紅色為預(yù)測模型。

結(jié)構(gòu)風(fēng)險最小化

當(dāng)樣本容量很小時仪召,經(jīng)驗風(fēng)險最小化學(xué)習(xí)的效果就未必很好寨蹋,會產(chǎn)生“ 過擬合(over-fitting) ”現(xiàn)象。

結(jié)構(gòu)風(fēng)險最小化(structural risk minimization)是為了防止過擬合而提出來的策略扔茅,結(jié)構(gòu)風(fēng)險在經(jīng)驗風(fēng)險上加上表示模型的 正則化 (regularizer)或 罰項 (penalty term)钥庇。在假設(shè)空間,損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定情況下咖摹,結(jié)構(gòu)風(fēng)險的定義是

正則化

正則化項可以模型參數(shù)向量的范數(shù)。例如难述,回歸問題中萤晴,損失函數(shù)是平方損失,正則化項可以是參數(shù)向量的L2范數(shù):

也可以是參數(shù)向量的L1范數(shù):

經(jīng)驗風(fēng)險較小的模型可能較復(fù)雜胁后,這時正則化項的值會較大店读,正則化的作用就是選擇經(jīng)驗風(fēng)險與模型復(fù)雜度同時較小的模型

正則化項符合奧卡姆剃刀原理,在所有可能的模型中攀芯,能夠很好的解釋已知數(shù)據(jù)并且十分簡單的模型才是最好的模型屯断。

從 貝葉斯估計 的角度來看,正則化項對應(yīng)于模型的先驗概率,可以假設(shè)復(fù)雜的模型有較小的先驗概率殖演,簡單的模型有較大的先驗概率氧秘。

六、算法

機器學(xué)習(xí)的算法就是 求解最優(yōu)化問題 的算法趴久,如果最優(yōu)化問題有 顯示的解析解 丸相,這個最優(yōu)化問題就比較簡單,但通常這個解析解不存在彼棍,所以需要利用 數(shù)值計算 的方法來求解灭忠,機器學(xué)習(xí)可以利用已有的最優(yōu)化。算法座硕,也可以開發(fā)獨自的最優(yōu)化算法弛作。

1.交叉驗證

機器學(xué)習(xí)中常用的精度測試方法,叫做交叉驗證华匾,目的是得到可靠穩(wěn)定的模型映琳,具體的做法是拿出大部分數(shù)據(jù)進行建模,留下部分樣本用模型進行預(yù)測瘦真,并求出小部分樣本預(yù)測的誤差刊头,交叉驗證在克服過擬合問題非常有效。下面介紹常見的交叉驗證方法:

(1)簡單交叉驗證

隨機從最初的樣本中選擇部分诸尽,形成驗證數(shù)據(jù)原杂,而剩下的當(dāng)作訓(xùn)練數(shù)據(jù)。一般來說您机,少于三分之一的數(shù)據(jù)被選作驗證數(shù)據(jù)穿肄。

(2)10折交叉驗證

10折交叉驗證是把樣本數(shù)據(jù)分成10份,輪流將其中9份做訓(xùn)練數(shù)據(jù)际看,將剩下的1份當(dāng)測試數(shù)據(jù)咸产,10次結(jié)果的均值作為對算法精度的估計,通常情況下為了提高精度仲闽,還需要做多次10折交叉驗證.

(3)留一驗證

留一驗證只使用樣本數(shù)據(jù)中的一項當(dāng)作驗證數(shù)據(jù)脑溢,而剩下的全作為訓(xùn)練數(shù)據(jù),一直重復(fù)赖欣,直到所有的樣本都作驗證數(shù)據(jù)一次屑彻。可以看出留一驗證實際上就是K折交叉驗證顶吮,只不過這里的K有點特殊社牲,K為樣本數(shù)據(jù)個數(shù)。

2 泛化能力

泛化能力指由學(xué)習(xí)方法得到的模型對未知數(shù)據(jù)的預(yù)測能力

3 過擬合與模型選擇

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末悴了,一起剝皮案震驚了整個濱河市搏恤,隨后出現(xiàn)的幾起案子违寿,更是在濱河造成了極大的恐慌,老刑警劉巖熟空,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件藤巢,死亡現(xiàn)場離奇詭異,居然都是意外死亡痛阻,警方通過查閱死者的電腦和手機菌瘪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來阱当,“玉大人俏扩,你說我怎么就攤上這事”滋恚” “怎么了录淡?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長油坝。 經(jīng)常有香客問我嫉戚,道長,這世上最難降的妖魔是什么澈圈? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任彬檀,我火速辦了婚禮,結(jié)果婚禮上瞬女,老公的妹妹穿的比我還像新娘窍帝。我一直安慰自己,他們只是感情好诽偷,可當(dāng)我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布坤学。 她就那樣靜靜地躺著,像睡著了一般报慕。 火紅的嫁衣襯著肌膚如雪深浮。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天眠冈,我揣著相機與錄音飞苇,去河邊找鬼。 笑死蜗顽,一個胖子當(dāng)著我的面吹牛玄柠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播诫舅,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼宫患!你這毒婦竟也來了刊懈?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎虚汛,沒想到半個月后匾浪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡卷哩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年蛋辈,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片将谊。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡冷溶,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出尊浓,到底是詐尸還是另有隱情逞频,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布栋齿,位于F島的核電站苗胀,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏瓦堵。R本人自食惡果不足惜基协,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望菇用。 院中可真熱鬧澜驮,春花似錦、人聲如沸刨疼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽揩慕。三九已至亭畜,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間迎卤,已是汗流浹背拴鸵。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蜗搔,地道東北人劲藐。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像樟凄,于是被迫代替她去往敵國和親聘芜。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容