一打毛、什么是機器學(xué)習(xí)
機器學(xué)習(xí)研究的是計算機怎么模擬人類的行為速蕊,以獲取新的知識和技能,并重新組織已有的知識結(jié)構(gòu)乖仇,使之不斷改善
自身憾儒。簡單一點說询兴,就是計算機自動從數(shù)據(jù)中學(xué)習(xí)規(guī)律和模式,并應(yīng)用于解決新問題起趾。比如給定數(shù)據(jù)(X1,Y1), (X2,Y2), …
,(Xn,Yn)诗舰,通過算法機器自動學(xué)習(xí)X和Y之間的關(guān)系,從而對新的Xi训裆,能夠預(yù)測Yi眶根,比如通過身高預(yù)測性別、預(yù)測體重等边琉。
機器學(xué)習(xí)關(guān)注的問題
并非所有問題都適合用機器學(xué)習(xí)解決属百,如果邏輯清晰的問題用規(guī)則就能很高效和準確解決。也沒有一個機器學(xué)習(xí)算法
可以通用于所有問題变姨。機器學(xué)習(xí)到底關(guān)心和解決什么樣的問題族扰?
1、分類問題
根據(jù)數(shù)據(jù)樣本上抽取出的特征定欧,判定其屬于 有限 個類別中的哪一個渔呵,比如
垃圾郵件識別:1 垃圾郵件,2 正常郵件
文本情感分析:1 褒砍鸠,2 貶
圖像內(nèi)容識別識別(結(jié)果類別:1厘肮、喵星人 2、汪星人 3睦番、人類 4、草泥馬 5耍属、都不是)托嚣。
2、回歸問題
根據(jù)數(shù)據(jù)樣本上抽取的特征厚骗,預(yù)測一個連續(xù)值的結(jié)果示启,比如
《速度與激情》票房
《速度與激情》票房
廣州2個月后房價
3、聚類
根據(jù)數(shù)據(jù)樣本上抽取出的特征领舰,相近或相關(guān)的樣本聚在一起夫嗓,比如:
新聞分類
用戶群體劃分
再把上述的問題劃分到機器學(xué)習(xí)2個分類上:
分類和回歸問題需要已知結(jié)果的數(shù)據(jù)做訓(xùn)練,屬于“監(jiān)督學(xué)習(xí)”
聚類問題不需要已知標簽進行訓(xùn)練冲秽,屬于“非監(jiān)督學(xué)習(xí)”
機器學(xué)習(xí)在以下熱點有非常多的應(yīng)用:
1.計算機視覺
典型的應(yīng)用包括:人臉識別舍咖、車牌識別、掃描文字識別锉桑、圖片內(nèi)容識別排霉、圖片搜索等等。
2.自然語言處理
典型的應(yīng)用包括:搜索引擎智能匹配民轴、文本內(nèi)容理解攻柠、文本情緒判斷球订,語音識別、輸入法瑰钮、機器翻譯等等冒滩。
3.社會網(wǎng)絡(luò)分析
典型的應(yīng)用包括:用戶畫像、網(wǎng)絡(luò)關(guān)聯(lián)分析浪谴、欺詐作弊發(fā)現(xiàn)开睡、熱點發(fā)現(xiàn)等等。
4.推薦
典型的應(yīng)用包括:蝦米音樂的“歌曲推薦”较店,某寶的“猜你喜歡”等等士八。
二、基于規(guī)則
三梁呈、基于模型-機器學(xué)習(xí)
四婚度、基本概念
輸入空間 :輸入所有可能取值集合
輸出空間 :輸出所有可能取值集合
特征空間 :每個具體的輸入是一個實例,通常由 特征向量 表示官卡,特征向量存在的空間稱為特征空間蝗茁。特征空間的每一維對應(yīng)于一個特征。
假設(shè)空間 :學(xué)習(xí)的目的在于學(xué)習(xí)一個有輸入到輸出的 映射 寻咒,映射由模型來表示哮翘,模型屬于由輸入空間到輸出空間的映射。集合毛秘,這個集合稱為假設(shè)空間饭寺。
輸入變量X和輸出變量Y有不同的類型,可以是連續(xù)叫挟,也可以是離散的艰匙。輸入和輸出變量均為連續(xù)變量的預(yù)測問題稱為 回歸問題 ;輸出變量為有限個離散變量的預(yù)測問題稱為 分類問題
五抹恳、機器學(xué)習(xí)三要素
統(tǒng)計學(xué)習(xí)=模型+策略+算法
模型:所要學(xué)習(xí)的條件概率分布或決策函數(shù)
策略:從假設(shè)空間中按照一定的準則去選擇最優(yōu)的模型员凝?損失函數(shù)和風(fēng)險函數(shù)
算法:如何高效找到模型中未知的最優(yōu)參數(shù)
1.模型-規(guī)律
模型通常分為決策函數(shù)或條件概率分布
決策函數(shù):
條件概率分布:
2.策略 ---模型好不好
評估模型的好壞,使用損失函數(shù)來進行度量奋献,模型給出的值與實際真實值存在的差距健霹。
損失函數(shù)度量模型一次預(yù)測的好壞 ,常用的損失函數(shù)有:
期望風(fēng)險
由于模型的輸入和輸出(X,Y)是隨機變量瓶蚂,遵循聯(lián)合分布P(X,Y),所以損失函數(shù)的期望是
這是理論上模型f(x)關(guān)于聯(lián)合分布P(X,Y)的平均意義下的損失糖埋,稱為 風(fēng)險函數(shù) (risk function)或 期望損失 (expected loss)。
機器學(xué)習(xí)的目標就是選擇 期望風(fēng)險最小的模型 扬跋,但由于 聯(lián)合分布P(X,Y)是未知 的阶捆,E不能直接計算 。
經(jīng)驗風(fēng)險
模型f(X)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為 經(jīng)驗風(fēng)險 (empirical risk)或 經(jīng)驗損失 (empirical loss),記作
?期望風(fēng)險是模型關(guān)于聯(lián)合分布的期望損失洒试,經(jīng)驗風(fēng)險是模型關(guān)于訓(xùn)練樣本集的平均損失 倍奢。依據(jù)大數(shù)定律,當(dāng)樣本N趨于無窮時垒棋,經(jīng)驗風(fēng)險趨于期望風(fēng)險卒煞。但由于現(xiàn)實中訓(xùn)練樣本數(shù)有限甚至很小,使用經(jīng)驗風(fēng)險估計期望風(fēng)險常常并不理想叼架,所以要對 經(jīng)驗風(fēng)險進行一定的矯正 畔裕,這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個基本策略:經(jīng)驗風(fēng)險最小化和結(jié)構(gòu)風(fēng)險最小化。
經(jīng)驗風(fēng)險最小化
當(dāng)樣本容量夠大時乖订,經(jīng)驗風(fēng)險最小化能保證有很好的學(xué)習(xí)效果扮饶,比如 極大似然估計 就是經(jīng)驗風(fēng)險最小化的一個例子。當(dāng)模型是條件概率分布乍构,損失函數(shù)是對數(shù)損失函數(shù)時甜无,經(jīng)驗風(fēng)險最小化就等價于極大似然估計。
過擬合與模型選擇
上圖給出了M=0哥遮,M=1岂丘,M=3,M=9時的多項式函數(shù)擬合的情況眠饮,其中綠色曲線為真模型奥帘,紅色為預(yù)測模型。
結(jié)構(gòu)風(fēng)險最小化
當(dāng)樣本容量很小時仪召,經(jīng)驗風(fēng)險最小化學(xué)習(xí)的效果就未必很好寨蹋,會產(chǎn)生“ 過擬合(over-fitting) ”現(xiàn)象。
結(jié)構(gòu)風(fēng)險最小化(structural risk minimization)是為了防止過擬合而提出來的策略扔茅,結(jié)構(gòu)風(fēng)險在經(jīng)驗風(fēng)險上加上表示模型的 正則化 (regularizer)或 罰項 (penalty term)钥庇。在假設(shè)空間,損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定情況下咖摹,結(jié)構(gòu)風(fēng)險的定義是
正則化
正則化項可以模型參數(shù)向量的范數(shù)。例如难述,回歸問題中萤晴,損失函數(shù)是平方損失,正則化項可以是參數(shù)向量的L2范數(shù):
也可以是參數(shù)向量的L1范數(shù):
經(jīng)驗風(fēng)險較小的模型可能較復(fù)雜胁后,這時正則化項的值會較大店读,正則化的作用就是選擇經(jīng)驗風(fēng)險與模型復(fù)雜度同時較小的模型
正則化項符合奧卡姆剃刀原理,在所有可能的模型中攀芯,能夠很好的解釋已知數(shù)據(jù)并且十分簡單的模型才是最好的模型屯断。
從 貝葉斯估計 的角度來看,正則化項對應(yīng)于模型的先驗概率,可以假設(shè)復(fù)雜的模型有較小的先驗概率殖演,簡單的模型有較大的先驗概率氧秘。
六、算法
機器學(xué)習(xí)的算法就是 求解最優(yōu)化問題 的算法趴久,如果最優(yōu)化問題有 顯示的解析解 丸相,這個最優(yōu)化問題就比較簡單,但通常這個解析解不存在彼棍,所以需要利用 數(shù)值計算 的方法來求解灭忠,機器學(xué)習(xí)可以利用已有的最優(yōu)化。算法座硕,也可以開發(fā)獨自的最優(yōu)化算法弛作。
1.交叉驗證
機器學(xué)習(xí)中常用的精度測試方法,叫做交叉驗證华匾,目的是得到可靠穩(wěn)定的模型映琳,具體的做法是拿出大部分數(shù)據(jù)進行建模,留下部分樣本用模型進行預(yù)測瘦真,并求出小部分樣本預(yù)測的誤差刊头,交叉驗證在克服過擬合問題非常有效。下面介紹常見的交叉驗證方法:
(1)簡單交叉驗證
隨機從最初的樣本中選擇部分诸尽,形成驗證數(shù)據(jù)原杂,而剩下的當(dāng)作訓(xùn)練數(shù)據(jù)。一般來說您机,少于三分之一的數(shù)據(jù)被選作驗證數(shù)據(jù)穿肄。
(2)10折交叉驗證
10折交叉驗證是把樣本數(shù)據(jù)分成10份,輪流將其中9份做訓(xùn)練數(shù)據(jù)际看,將剩下的1份當(dāng)測試數(shù)據(jù)咸产,10次結(jié)果的均值作為對算法精度的估計,通常情況下為了提高精度仲闽,還需要做多次10折交叉驗證.
(3)留一驗證
留一驗證只使用樣本數(shù)據(jù)中的一項當(dāng)作驗證數(shù)據(jù)脑溢,而剩下的全作為訓(xùn)練數(shù)據(jù),一直重復(fù)赖欣,直到所有的樣本都作驗證數(shù)據(jù)一次屑彻。可以看出留一驗證實際上就是K折交叉驗證顶吮,只不過這里的K有點特殊社牲,K為樣本數(shù)據(jù)個數(shù)。
2 泛化能力
泛化能力指由學(xué)習(xí)方法得到的模型對未知數(shù)據(jù)的預(yù)測能力
3 過擬合與模型選擇