一桨醋、監(jiān)督學(xué)習(xí)
(一)回歸模型
1袜硫、線性回歸模型:一元線性回歸箭阶、多元線性回歸
(1)線性回歸(linear regression)是一種線性模型挤安,它假設(shè)輸入變量x和單個輸出變量y之間存在線性關(guān)系谚殊。
(2)具體來說,利用線性回歸模型蛤铜,可以從一組輸入變量x的線性組合中嫩絮,計(jì)算輸出變量y。
(3)線性回歸模型
? ? * 給定有d個屬性(特征)描述的示例x=(x1;x2;...;xd)围肥,其中xi是x在第i個屬性(特征)上的取值剿干,線性模型(innear model)試圖學(xué)得一個通過屬性(特征)的線性組合來進(jìn)行預(yù)測的函數(shù),即:f(x)=w1x1+w2x2+...+wdxd+b
? ? * 一般用向量形式寫成:穆刻,其中 w=(w1;w2;...;wd)
? ? * 假設(shè)特征和結(jié)果都滿足線性置尔,即不大于一次方。
? ? * w和b學(xué)得之后蛹批,模型就得以確定撰洗。
? ? * 許多功能更為強(qiáng)大的非線性模型可在線性模型的基礎(chǔ)上通過引入層級結(jié)構(gòu)或高維映射而得。
2腐芍、非線性回歸模型
3差导、最小二乘法
(1)基于均方誤差最小化來進(jìn)行模型求解的方法稱為“最小二乘法”(least square method)
(2)它的主要思想就是選擇未知參數(shù),使得理論值與觀測值之差的平方和達(dá)到最小猪勇。
(3)我們假設(shè)輸入屬性(特征)的數(shù)目只有一個:? ? ????????在線性回歸中设褐,最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐氏距離之后最小泣刹。
? ? ? ? 求解線性回歸:
4助析、多元線性回歸
* 如果有兩個或兩個以上的自變量,這樣的線性回歸就稱為多元線性回歸椅您。
* 實(shí)際問題中外冀,一個現(xiàn)象往往是受多個因素影響,所以多元線性回歸比醫(yī)院線性回歸的實(shí)際應(yīng)用更廣掀泳。
5雪隧、梯度下降算法求解線性回歸
(1)在梯度下降算法中被稱為學(xué)習(xí)率或者步長。
(2)這意味著我們可以通過來控制每一步走的距離员舵,以保證不要走得太快脑沿,錯過了最低點(diǎn);同時也要保證收斂速度不要太慢马僻。
(3)所以的選擇在梯度下降法中往往是最重要的庄拇,不要太大也不能太小。
6韭邓、梯度下降法和最小二乘法?
(1)相同點(diǎn)?
? ? ? ? - 本質(zhì)和目標(biāo)相同:兩種方法都是經(jīng)典的學(xué)習(xí)算法,在給定已知數(shù)據(jù)的前提下利用求導(dǎo)算出一個模型(函數(shù)),使得損失函數(shù)最小,然后對給定的新數(shù)據(jù)進(jìn)行估算預(yù)測?
(2)不同點(diǎn)?
? ? ? ? - 損失函數(shù):梯度下降可以選取其它損失函數(shù)措近,而最小二乘一定是平方損失函數(shù)溶弟。
? ? ? ? - 實(shí)現(xiàn)方法:最小二乘法是直接求導(dǎo)找出全局最小熄诡;而梯度下降是一種迭代法 可很。
? ? ????- 效果:最小二乘找到的一定是全局最小,但計(jì)算繁瑣凰浮,且復(fù)雜情況下未必有解:梯度下降迭代計(jì)算簡單我抠,但找到的一般是局部最小,只有在目標(biāo)函數(shù)是凸函數(shù)時才是全局最小到最小點(diǎn)附近時收斂速度會變慢袜茧,且對初始點(diǎn)的選擇極為敏感菜拓。
(二)分類模型
1、k近鄰(KNN)
(1)最簡單最初級的分類器笛厦,就是將全部的訓(xùn)練數(shù)據(jù)所對應(yīng)的類別都記錄下來纳鼎,當(dāng)測試對象的屬性和某個訓(xùn)練對象的屬性完全匹配時,便可以對其進(jìn)行分類裳凸。
? ? ????K近鄰(k- nearest neighbour, KNN)是一種基本分類方法贱鄙,通過測量不同特征值之間的距離進(jìn)行分類。它的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別姨谷,則該樣本也屬于這個類別逗宁,其中K通常是不大于20的整數(shù)。
????????KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象梦湘。
(2)KNN示例:綠色圓要被決定賦予哪個類,是紅色三角形還是藍(lán)色四方形?
? ? ? ? ?如果K=3瞎颗,由于紅色三角形所占比例為2/3,綠色圓將被賦予紅色三角形那個類捌议,如果K=5,由于藍(lán)色四方形比例為3/5哼拔,因此綠色圓被賦予藍(lán)色四方形類。
? ? ? ? ?KNN算法的結(jié)果很大程度取決于K的選擇瓣颅。
(3)KNN中倦逐,通過計(jì)算對象間距離來作為各個對象之間的非相似性指標(biāo),避免了對象之間的匹配問題宫补,在這里距離一般使用歐氏距離或曼哈頓距離:
(4)在訓(xùn)練集中數(shù)據(jù)和標(biāo)簽已知的情況下僻孝,輸入測試數(shù)據(jù),將測試數(shù)據(jù)的特征與訓(xùn)練集中對應(yīng)的特征進(jìn)行相互比較守谓,找到訓(xùn)練集中與之最為相似的前K個數(shù)據(jù),則該測試數(shù)據(jù)對應(yīng)的類別就是K個數(shù)據(jù)中出現(xiàn)次數(shù)最多的那個分類您单,其算法的描述為:
? ? a)計(jì)算測試數(shù)據(jù)與各個訓(xùn)練數(shù)據(jù)之間的距離;
? ? b)按照距離的遞增關(guān)系進(jìn)行排序;
? ? c)選取距離最小的K個點(diǎn);
? ? d)確定前K個點(diǎn)所在類別的出現(xiàn)頻率;
? ? e)返回前K個點(diǎn)中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類斋荞。
2、決策樹
(1)決策樹是一種簡單高效并且具有強(qiáng)解釋性的模型虐秦,廣泛應(yīng)用于數(shù)據(jù)分析領(lǐng)域平酿。其本質(zhì)是一顆自上而下的由多個判斷節(jié)點(diǎn)組成的樹凤优。
(2)決策樹示例——預(yù)測小明今天是否會出門打球
(3)決策樹與if-then規(guī)則
? ? ? ? ?決策樹可以看作一個 if-then規(guī)則的集合
? ? ????由決策樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的每一條路徑,構(gòu)建一條規(guī)則:路徑上內(nèi)部節(jié)點(diǎn)的特征對應(yīng)著規(guī)則的條件( condition)蜈彼,葉節(jié)點(diǎn)對應(yīng)規(guī)則的結(jié)論筑辨。
? ? ? ? 決策樹的 if-then規(guī)則集合有一個重要性質(zhì):互斥并且完備。這就是說幸逆,每個實(shí)例都被一條規(guī)則(一條路徑)所覆蓋棍辕,并且只被這一條規(guī)則覆蓋。
(4)決策樹的目標(biāo)
????????決策樹學(xué)習(xí)的本質(zhì)还绘,是從訓(xùn)練數(shù)據(jù)集中歸納出一組 if-then分類規(guī)則楚昭。
? ? ????與訓(xùn)練集不相矛盾的決策樹,可能有很多個拍顷,也可能一個也沒有抚太;所以我們需要選擇一個與訓(xùn)練數(shù)據(jù)集矛盾較小的決策樹。
? ? ????另一角度昔案,我們可以把決策樹看成一個條件概率模型尿贫,我們的目標(biāo)是將實(shí)例分配到條件概率更大的那一類中去。
? ? 從所有可能的情況中選擇最優(yōu)決策樹踏揣,是一個NP完全問題庆亡,所以我們通常采用啟發(fā)式算法求解決策樹,得到一個次最優(yōu)解呼伸。
? ? 采用的算法通常是遞歸地進(jìn)行以下過程:選擇最優(yōu)特征身冀,并根據(jù)該特征對訓(xùn)練數(shù)據(jù)進(jìn)行分割,使得各個子數(shù)據(jù)集都有一個最好的分類括享。
(5)特征選擇:就是決定用哪個特征來劃分特征空間搂根。
(6)隨機(jī)變量:(random variable)的本質(zhì)是一個函數(shù),是從樣本空間的子集到實(shí)數(shù)的映射铃辖,將事件轉(zhuǎn)換成一個數(shù)值剩愧。
? ??????根據(jù)樣本空間中的元素不同(即不同的實(shí)驗(yàn)結(jié)果),隨機(jī)變量的值也將隨機(jī)產(chǎn)生娇斩∪示恚可以說,隨機(jī)變量是“數(shù)值化”的實(shí)驗(yàn)結(jié)果。
? ? 在現(xiàn)實(shí)生活中犬第,實(shí)驗(yàn)結(jié)果是描述性的詞匯锦积,比如“硬幣的正面”、“反面”歉嗓。在數(shù)學(xué)家眼里,這些文字化的敘述太過繁瑣,所以拿數(shù)字來代表它們丰介。
(7)熵:( entropy)用來衡量隨機(jī)變量的不確定性。變量的不確定性越大,熵也就越大。
? ? ? ? ?設(shè)X是一個取有限個值的離散隨機(jī)變量,其概率分布為
? ??????????????
? ? ? ? ?則隨機(jī)變量X的熵定義為:
? ? ? ? 通常,上式中的對數(shù)以2為底或者以e為底(自然對數(shù))哮幢,這時熵的單位分別稱為比特(bit)或納特(nat)带膀。
? ? ? ? ?* 當(dāng)隨機(jī)變量只取兩個值,例如1橙垢,0時垛叨,則X分布為:
? ??????????
? ? ? ? 熵為:
? ? ? ? 這時,熵H(p)隨概率p變化的曲線如下圖所示(單位為比特):
? ? ? ? * 熵的示例
(8)決策樹目標(biāo):
????????我們使用決策樹模型的最終目的是利用決策樹模型進(jìn)行分類預(yù)測柜某,預(yù)測我們給出的一組數(shù)據(jù)最終屬于哪一種類別嗽元,這是一個由不確定到確定的過程。
????????最終理想的分類是莺琳,每一組數(shù)據(jù)还棱,都能確定性地按照決策樹分支找到對應(yīng)的類別。
? ? ????所以我們就選擇使數(shù)據(jù)信息熵下降最快的特征作為分類節(jié)點(diǎn)惭等,使得決策樹盡快地趨于確定珍手。
(9)條件熵(conditional entropy):
????????條件熵H(Y|X)表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性:
? ??????????
? ? ? ? 熵H(D)表示對數(shù)據(jù)集D進(jìn)行分類的不確定性辞做。
? ? ????條件熵H(D|A)指在給定特征A的條件下數(shù)據(jù)集分類的不確定性琳要。
? ? ????當(dāng)熵和條件熵的概率由數(shù)據(jù)估計(jì)得到時,所對應(yīng)的熵與條件熵分別稱為經(jīng)驗(yàn)熵( empirical entropy)和經(jīng)驗(yàn)條件熵( empirical conditional entropy)秤茅。
(10)數(shù)據(jù)增益:
????????????特征A對訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A)稚补,定義為集合D的經(jīng)驗(yàn)熵H(D)與特征A給定條件下D的條件熵H(DA)之差,即 g(D, A)=H(D)-H(D|4)?
????????????決策樹學(xué)習(xí)應(yīng)用信息增益準(zhǔn)則選擇特征框喳。
? ????????? 經(jīng)驗(yàn)熵H(D)表示對數(shù)據(jù)集D進(jìn)行分類的不確定性课幕。而經(jīng)驗(yàn)條件H(D|A)表示在特征A給定的條件下對數(shù)據(jù)集D進(jìn)行分類的不確定性。那么它們的差,即信息增益,就表示由于特征A而使得對數(shù)據(jù)集D的分類的不確定性減少的程度五垮。
? ????????? 對于數(shù)據(jù)集D而言乍惊,信息增益依賴于特征,不同的特征往往具有不同的信息增益放仗。
????????????信息增益大的特征具有更強(qiáng)的分類能力润绎。
(11)決策樹的生成算法:
????????????ID3:決策樹(1D3)的訓(xùn)練過程就是找到信息增益最大的特征,然后按照此特征進(jìn)行分類诞挨,然后再找到各類型子集中信息增益最大的特征莉撇,然后按照此特征進(jìn)行分類,最終得到符合要求的模型惶傻。
?????????????C4.5:C4.5算法在ID3基礎(chǔ)上做了改進(jìn),用信息增益比來選擇特征棍郎。
????????????分類與回歸樹(CART):由特征選擇、樹的生成和剪枝三部分組成,既可以用于分類也可以用于回歸
3银室、邏輯斯蒂回歸——分類問題
(1)線性回歸的問題——怎樣判斷腫瘤是否惡性涂佃?
(2)線性回歸健壯性不夠静秆,一旦有噪聲,立即“投降”巡李。
(3)Sigmoid函數(shù)(壓縮函數(shù))
? ? Sigmoid函數(shù)中,e^(-z)中z的正負(fù)決定了g(z)的值最后是大于0.5還是小于0.5扶认;即z大于0時侨拦,g(z)大于0.5,z小于0時辐宾,g(z)小于0.5狱从。
? ? 當(dāng)z對應(yīng)的表達(dá)式為分類邊界時,恰好有分類邊界兩側(cè)對應(yīng)z正負(fù)不同叠纹,也就使得分類邊界兩邊分別對應(yīng)g(z)>0.5和g(z)<0.5季研,因此根據(jù)g(z)與0.5的大小關(guān)系,就可以實(shí)現(xiàn)分類誉察。
(4)邏輯斯蒂回歸損失函數(shù)
(5)梯度下降法求解
二与涡、無監(jiān)督學(xué)習(xí)
(一)聚類
1、k均值(K-Means)
????k均值(k- means)是聚類算法中最為簡單持偏、高效的驼卖,屬于無監(jiān)督學(xué)習(xí)算法。
? ? 核心思想:由用戶指定k個初始質(zhì)心( initial centroids)鸿秆,以作為聚類的類別( cluster)酌畜,重復(fù)迭代直至算法收斂
????基本算法流程:
????(1)選取k個初始質(zhì)心(作為初始 cluster);?
? ? (2)repeat:
?????????????????對每個樣本點(diǎn),計(jì)算得到距其最近的質(zhì)心卿叽,將其類別標(biāo)為該質(zhì)心所對應(yīng)的 cluster桥胞;
????????????????重新計(jì)算k個cluser對應(yīng)的質(zhì)心;
? ? (3)until質(zhì)心不再發(fā)生變化或迭代達(dá)到上限考婴。