06_機(jī)器學(xué)習(xí)模型

一桨醋、監(jiān)督學(xué)習(xí)

(一)回歸模型

圖1

1袜硫、線性回歸模型:一元線性回歸箭阶、多元線性回歸

(1)線性回歸(linear regression)是一種線性模型挤安,它假設(shè)輸入變量x和單個輸出變量y之間存在線性關(guān)系谚殊。

(2)具體來說,利用線性回歸模型蛤铜,可以從一組輸入變量x的線性組合中嫩絮,計(jì)算輸出變量y。

圖2

(3)線性回歸模型

? ? * 給定有d個屬性(特征)描述的示例x=(x1;x2;...;xd)围肥,其中xi是x在第i個屬性(特征)上的取值剿干,線性模型(innear model)試圖學(xué)得一個通過屬性(特征)的線性組合來進(jìn)行預(yù)測的函數(shù),即:f(x)=w1x1+w2x2+...+wdxd+b

? ? * 一般用向量形式寫成:f(x)=w^tx+b穆刻,其中 w=(w1;w2;...;wd)

? ? * 假設(shè)特征和結(jié)果都滿足線性置尔,即不大于一次方。

? ? * w和b學(xué)得之后蛹批,模型就得以確定撰洗。

? ? * 許多功能更為強(qiáng)大的非線性模型可在線性模型的基礎(chǔ)上通過引入層級結(jié)構(gòu)或高維映射而得。

圖3

2腐芍、非線性回歸模型

3差导、最小二乘法

(1)基于均方誤差最小化來進(jìn)行模型求解的方法稱為“最小二乘法”(least square method)

(2)它的主要思想就是選擇未知參數(shù),使得理論值與觀測值之差的平方和達(dá)到最小猪勇。

圖4

(3)我們假設(shè)輸入屬性(特征)的數(shù)目只有一個:f(x_{i} )=wx_{i}+b_{i},使得f(x_{i})\cong y_{i}? ? ????????在線性回歸中设褐,最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐氏距離之后最小泣刹。

圖5

? ? ? ? 求解線性回歸:

圖6

4助析、多元線性回歸

* 如果有兩個或兩個以上的自變量,這樣的線性回歸就稱為多元線性回歸椅您。

* 實(shí)際問題中外冀,一個現(xiàn)象往往是受多個因素影響,所以多元線性回歸比醫(yī)院線性回歸的實(shí)際應(yīng)用更廣掀泳。

圖7

5雪隧、梯度下降算法求解線性回歸

(1)\alpha 在梯度下降算法中被稱為學(xué)習(xí)率或者步長。

(2)這意味著我們可以通過\alpha 來控制每一步走的距離员舵,以保證不要走得太快脑沿,錯過了最低點(diǎn);同時也要保證收斂速度不要太慢马僻。

(3)所以\alpha 的選擇在梯度下降法中往往是最重要的庄拇,不要太大也不能太小。

圖8
圖9

6韭邓、梯度下降法和最小二乘法?

(1)相同點(diǎn)?

? ? ? ? - 本質(zhì)和目標(biāo)相同:兩種方法都是經(jīng)典的學(xué)習(xí)算法,在給定已知數(shù)據(jù)的前提下利用求導(dǎo)算出一個模型(函數(shù)),使得損失函數(shù)最小,然后對給定的新數(shù)據(jù)進(jìn)行估算預(yù)測?

(2)不同點(diǎn)?

? ? ? ? - 損失函數(shù):梯度下降可以選取其它損失函數(shù)措近,而最小二乘一定是平方損失函數(shù)溶弟。

? ? ? ? - 實(shí)現(xiàn)方法:最小二乘法是直接求導(dǎo)找出全局最小熄诡;而梯度下降是一種迭代法 可很。

? ? ????- 效果:最小二乘找到的一定是全局最小,但計(jì)算繁瑣凰浮,且復(fù)雜情況下未必有解:梯度下降迭代計(jì)算簡單我抠,但找到的一般是局部最小,只有在目標(biāo)函數(shù)是凸函數(shù)時才是全局最小到最小點(diǎn)附近時收斂速度會變慢袜茧,且對初始點(diǎn)的選擇極為敏感菜拓。

(二)分類模型

1、k近鄰(KNN)

(1)最簡單最初級的分類器笛厦,就是將全部的訓(xùn)練數(shù)據(jù)所對應(yīng)的類別都記錄下來纳鼎,當(dāng)測試對象的屬性和某個訓(xùn)練對象的屬性完全匹配時,便可以對其進(jìn)行分類裳凸。

? ? ????K近鄰(k- nearest neighbour, KNN)是一種基本分類方法贱鄙,通過測量不同特征值之間的距離進(jìn)行分類。它的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別姨谷,則該樣本也屬于這個類別逗宁,其中K通常是不大于20的整數(shù)。

????????KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象梦湘。

(2)KNN示例:綠色圓要被決定賦予哪個類,是紅色三角形還是藍(lán)色四方形?

? ? ? ? ?如果K=3瞎颗,由于紅色三角形所占比例為2/3,綠色圓將被賦予紅色三角形那個類捌议,如果K=5,由于藍(lán)色四方形比例為3/5哼拔,因此綠色圓被賦予藍(lán)色四方形類。

? ? ? ? ?KNN算法的結(jié)果很大程度取決于K的選擇瓣颅。

圖10

(3)KNN中倦逐,通過計(jì)算對象間距離來作為各個對象之間的非相似性指標(biāo),避免了對象之間的匹配問題宫补,在這里距離一般使用歐氏距離或曼哈頓距離:

圖11

(4)在訓(xùn)練集中數(shù)據(jù)和標(biāo)簽已知的情況下僻孝,輸入測試數(shù)據(jù),將測試數(shù)據(jù)的特征與訓(xùn)練集中對應(yīng)的特征進(jìn)行相互比較守谓,找到訓(xùn)練集中與之最為相似的前K個數(shù)據(jù),則該測試數(shù)據(jù)對應(yīng)的類別就是K個數(shù)據(jù)中出現(xiàn)次數(shù)最多的那個分類您单,其算法的描述為:

? ? a)計(jì)算測試數(shù)據(jù)與各個訓(xùn)練數(shù)據(jù)之間的距離;

? ? b)按照距離的遞增關(guān)系進(jìn)行排序;

? ? c)選取距離最小的K個點(diǎn);

? ? d)確定前K個點(diǎn)所在類別的出現(xiàn)頻率;

? ? e)返回前K個點(diǎn)中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類斋荞。

2、決策樹

(1)決策樹是一種簡單高效并且具有強(qiáng)解釋性的模型虐秦,廣泛應(yīng)用于數(shù)據(jù)分析領(lǐng)域平酿。其本質(zhì)是一顆自上而下的由多個判斷節(jié)點(diǎn)組成的樹凤优。

圖2-1

(2)決策樹示例——預(yù)測小明今天是否會出門打球

圖2-2
圖2-3

(3)決策樹與if-then規(guī)則

? ? ? ? ?決策樹可以看作一個 if-then規(guī)則的集合

? ? ????由決策樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的每一條路徑,構(gòu)建一條規(guī)則:路徑上內(nèi)部節(jié)點(diǎn)的特征對應(yīng)著規(guī)則的條件( condition)蜈彼,葉節(jié)點(diǎn)對應(yīng)規(guī)則的結(jié)論筑辨。

? ? ? ? 決策樹的 if-then規(guī)則集合有一個重要性質(zhì):互斥并且完備。這就是說幸逆,每個實(shí)例都被一條規(guī)則(一條路徑)所覆蓋棍辕,并且只被這一條規(guī)則覆蓋。

圖2-4

(4)決策樹的目標(biāo)

????????決策樹學(xué)習(xí)的本質(zhì)还绘,是從訓(xùn)練數(shù)據(jù)集中歸納出一組 if-then分類規(guī)則楚昭。

? ? ????與訓(xùn)練集不相矛盾的決策樹,可能有很多個拍顷,也可能一個也沒有抚太;所以我們需要選擇一個與訓(xùn)練數(shù)據(jù)集矛盾較小的決策樹。

? ? ????另一角度昔案,我們可以把決策樹看成一個條件概率模型尿贫,我們的目標(biāo)是將實(shí)例分配到條件概率更大的那一類中去。

? ? 從所有可能的情況中選擇最優(yōu)決策樹踏揣,是一個NP完全問題庆亡,所以我們通常采用啟發(fā)式算法求解決策樹,得到一個次最優(yōu)解呼伸。

? ? 采用的算法通常是遞歸地進(jìn)行以下過程:選擇最優(yōu)特征身冀,并根據(jù)該特征對訓(xùn)練數(shù)據(jù)進(jìn)行分割,使得各個子數(shù)據(jù)集都有一個最好的分類括享。

(5)特征選擇:就是決定用哪個特征來劃分特征空間搂根。

圖2-5

(6)隨機(jī)變量:(random variable)的本質(zhì)是一個函數(shù),是從樣本空間的子集到實(shí)數(shù)的映射铃辖,將事件轉(zhuǎn)換成一個數(shù)值剩愧。

圖2-6

? ??????根據(jù)樣本空間中的元素不同(即不同的實(shí)驗(yàn)結(jié)果),隨機(jī)變量的值也將隨機(jī)產(chǎn)生娇斩∪示恚可以說,隨機(jī)變量是“數(shù)值化”的實(shí)驗(yàn)結(jié)果。

? ? 在現(xiàn)實(shí)生活中犬第,實(shí)驗(yàn)結(jié)果是描述性的詞匯锦积,比如“硬幣的正面”、“反面”歉嗓。在數(shù)學(xué)家眼里,這些文字化的敘述太過繁瑣,所以拿數(shù)字來代表它們丰介。

(7)熵:( entropy)用來衡量隨機(jī)變量的不確定性。變量的不確定性越大,熵也就越大。

? ? ? ? ?設(shè)X是一個取有限個值的離散隨機(jī)變量,其概率分布為

? ??????????????P(X=x_{i} )=p_{i} ,i=1,2,...,n

? ? ? ? ?則隨機(jī)變量X的熵定義為:H(X)=-\sum_{i=1}^np_{i} logp_{i}

? ? ? ? 通常,上式中的對數(shù)以2為底或者以e為底(自然對數(shù))哮幢,這時熵的單位分別稱為比特(bit)或納特(nat)带膀。

? ? ? ? ?* 當(dāng)隨機(jī)變量只取兩個值,例如1橙垢,0時垛叨,則X分布為:

? ??????????P(X=1)=p,p(X=0)=1-p,0\leq p\leq 1

? ? ? ? 熵為:H(p)=-p\log_2 p-(1-p)\log_2(1-p)

? ? ? ? 這時,熵H(p)隨概率p變化的曲線如下圖所示(單位為比特):

圖2-7

? ? ? ? * 熵的示例

圖2-8

(8)決策樹目標(biāo):

????????我們使用決策樹模型的最終目的是利用決策樹模型進(jìn)行分類預(yù)測柜某,預(yù)測我們給出的一組數(shù)據(jù)最終屬于哪一種類別嗽元,這是一個由不確定到確定的過程。

????????最終理想的分類是莺琳,每一組數(shù)據(jù)还棱,都能確定性地按照決策樹分支找到對應(yīng)的類別。

? ? ????所以我們就選擇使數(shù)據(jù)信息熵下降最快的特征作為分類節(jié)點(diǎn)惭等,使得決策樹盡快地趨于確定珍手。

(9)條件熵(conditional entropy):

????????條件熵H(Y|X)表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性:

? ??????????H(Y|X)=\sum_{i=1}^np_{i}H(Y|X=x_{i}) ,其中,p_{i}=P(X=x_{i})

? ? ? ? 熵H(D)表示對數(shù)據(jù)集D進(jìn)行分類的不確定性辞做。

? ? ????條件熵H(D|A)指在給定特征A的條件下數(shù)據(jù)集分類的不確定性琳要。

? ? ????當(dāng)熵和條件熵的概率由數(shù)據(jù)估計(jì)得到時,所對應(yīng)的熵與條件熵分別稱為經(jīng)驗(yàn)熵( empirical entropy)和經(jīng)驗(yàn)條件熵( empirical conditional entropy)秤茅。

(10)數(shù)據(jù)增益:

????????????特征A對訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A)稚补,定義為集合D的經(jīng)驗(yàn)熵H(D)與特征A給定條件下D的條件熵H(DA)之差,即 g(D, A)=H(D)-H(D|4)?

????????????決策樹學(xué)習(xí)應(yīng)用信息增益準(zhǔn)則選擇特征框喳。

? ????????? 經(jīng)驗(yàn)熵H(D)表示對數(shù)據(jù)集D進(jìn)行分類的不確定性课幕。而經(jīng)驗(yàn)條件H(D|A)表示在特征A給定的條件下對數(shù)據(jù)集D進(jìn)行分類的不確定性。那么它們的差,即信息增益,就表示由于特征A而使得對數(shù)據(jù)集D的分類的不確定性減少的程度五垮。

? ????????? 對于數(shù)據(jù)集D而言乍惊,信息增益依賴于特征,不同的特征往往具有不同的信息增益放仗。

????????????信息增益大的特征具有更強(qiáng)的分類能力润绎。

(11)決策樹的生成算法:

????????????ID3:決策樹(1D3)的訓(xùn)練過程就是找到信息增益最大的特征,然后按照此特征進(jìn)行分類诞挨,然后再找到各類型子集中信息增益最大的特征莉撇,然后按照此特征進(jìn)行分類,最終得到符合要求的模型惶傻。

?????????????C4.5:C4.5算法在ID3基礎(chǔ)上做了改進(jìn),用信息增益比來選擇特征棍郎。

????????????分類與回歸樹(CART):由特征選擇、樹的生成和剪枝三部分組成,既可以用于分類也可以用于回歸

3银室、邏輯斯蒂回歸——分類問題

(1)線性回歸的問題——怎樣判斷腫瘤是否惡性涂佃?

圖12

(2)線性回歸健壯性不夠静秆,一旦有噪聲,立即“投降”巡李。

圖13
圖14

(3)Sigmoid函數(shù)(壓縮函數(shù))

圖15
圖16
圖17
圖18

? ? Sigmoid函數(shù)中,e^(-z)中z的正負(fù)決定了g(z)的值最后是大于0.5還是小于0.5扶认;即z大于0時侨拦,g(z)大于0.5,z小于0時辐宾,g(z)小于0.5狱从。

? ? 當(dāng)z對應(yīng)的表達(dá)式為分類邊界時,恰好有分類邊界兩側(cè)對應(yīng)z正負(fù)不同叠纹,也就使得分類邊界兩邊分別對應(yīng)g(z)>0.5和g(z)<0.5季研,因此根據(jù)g(z)與0.5的大小關(guān)系,就可以實(shí)現(xiàn)分類誉察。

(4)邏輯斯蒂回歸損失函數(shù)

圖19
圖20
圖21
圖22
圖23
圖24

(5)梯度下降法求解

圖25

二与涡、無監(jiān)督學(xué)習(xí)

(一)聚類

1、k均值(K-Means)

圖26

????k均值(k- means)是聚類算法中最為簡單持偏、高效的驼卖,屬于無監(jiān)督學(xué)習(xí)算法。

? ? 核心思想:由用戶指定k個初始質(zhì)心( initial centroids)鸿秆,以作為聚類的類別( cluster)酌畜,重復(fù)迭代直至算法收斂

????基本算法流程:

????(1)選取k個初始質(zhì)心(作為初始 cluster);?

? ? (2)repeat:

?????????????????對每個樣本點(diǎn),計(jì)算得到距其最近的質(zhì)心卿叽,將其類別標(biāo)為該質(zhì)心所對應(yīng)的 cluster桥胞;

????????????????重新計(jì)算k個cluser對應(yīng)的質(zhì)心;

? ? (3)until質(zhì)心不再發(fā)生變化或迭代達(dá)到上限考婴。

2贩虾、基于密度的聚類

3、最大期望聚類

(二)降維

1蕉扮、潛語義分析(LSA)

2整胃、主成分分析(PCA)

3、奇異值分析(SVD)


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末喳钟,一起剝皮案震驚了整個濱河市屁使,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌奔则,老刑警劉巖蛮寂,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異易茬,居然都是意外死亡酬蹋,警方通過查閱死者的電腦和手機(jī)及老,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來范抓,“玉大人骄恶,你說我怎么就攤上這事∝暗妫” “怎么了僧鲁?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長象泵。 經(jīng)常有香客問我寞秃,道長,這世上最難降的妖魔是什么偶惠? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任春寿,我火速辦了婚禮,結(jié)果婚禮上忽孽,老公的妹妹穿的比我還像新娘绑改。我一直安慰自己,他們只是感情好扒腕,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布绢淀。 她就那樣靜靜地躺著,像睡著了一般瘾腰。 火紅的嫁衣襯著肌膚如雪皆的。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天蹋盆,我揣著相機(jī)與錄音费薄,去河邊找鬼。 笑死栖雾,一個胖子當(dāng)著我的面吹牛楞抡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播析藕,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼召廷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了账胧?” 一聲冷哼從身側(cè)響起竞慢,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎治泥,沒想到半個月后筹煮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡居夹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年败潦,在試婚紗的時候發(fā)現(xiàn)自己被綠了本冲。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡劫扒,死狀恐怖檬洞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情沟饥,我是刑警寧澤疮胖,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站闷板,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏院塞。R本人自食惡果不足惜遮晚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望拦止。 院中可真熱鬧县遣,春花似錦、人聲如沸汹族。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽顶瞒。三九已至夸政,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間榴徐,已是汗流浹背守问。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坑资,地道東北人耗帕。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像袱贮,于是被迫代替她去往敵國和親仿便。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容