機器學(xué)習(xí)小結(jié)(上)

利用四個多月的業(yè)余時間學(xué)習(xí)機器學(xué)習(xí)算法破喻,本文試著站在準(zhǔn)備入門產(chǎn)品經(jīng)理的角度,進行一個小結(jié)和整理氏涩。

一、什么是機器學(xué)習(xí)

機器學(xué)習(xí)是研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為有梆,通過觀察和訓(xùn)練是尖,發(fā)現(xiàn)事物規(guī)律,從而獲得分析問題泥耀、解決問題的能力饺汹。簡單來說,機器學(xué)習(xí)其實是學(xué)習(xí)從輸入到輸出的映射痰催,即希望通過足夠的數(shù)據(jù)兜辞,把數(shù)據(jù)中的規(guī)律與聯(lián)系給找出來。

機器學(xué)習(xí)的必備條件:有規(guī)律可以學(xué)習(xí)夸溶、編程很難做到逸吵、有足夠多能夠?qū)W習(xí)到其中規(guī)律的數(shù)據(jù)

機器學(xué)習(xí)的三要素:數(shù)據(jù)、算法蜘醋、模型

機器學(xué)習(xí)的三個階段:準(zhǔn)備數(shù)據(jù)胁塞、建立模型、模型應(yīng)用

機器學(xué)習(xí)可以解決的問題有:回歸压语、分類啸罢、聚類、歸因(尋找關(guān)鍵因素)胎食、異常檢測

機器學(xué)習(xí)可以分為:監(jiān)督學(xué)習(xí)扰才、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)厕怜、強化學(xué)習(xí)衩匣、遷移學(xué)習(xí)。

監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)的訓(xùn)練集要求每一條數(shù)據(jù)都包括輸入和輸出粥航,也就是說必須帶有特征和分類結(jié)果琅捏。訓(xùn)練集中的分類結(jié)果是人為標(biāo)注好的,監(jiān)督學(xué)習(xí)是一個通過已有訓(xùn)練樣本的輸入與輸出訓(xùn)練模型递雀,再利用這個模型將所有的新輸入數(shù)據(jù)映射為相應(yīng)的輸出柄延,對輸出進行判斷從而實現(xiàn)分類的過程。監(jiān)督學(xué)習(xí)是最常見的傳統(tǒng)機器學(xué)習(xí)算法缀程,如決策樹搜吧、支持向量機市俊、樸素貝葉斯法、K近鄰法滤奈、人工神經(jīng)網(wǎng)絡(luò)等都是監(jiān)督學(xué)習(xí)摆昧。

無監(jiān)督學(xué)習(xí):無監(jiān)督學(xué)習(xí)的訓(xùn)練集使用無標(biāo)簽的數(shù)據(jù),每一條數(shù)據(jù)沒有所謂的“正確答案”蜒程,模型必須自己搞明白最后呈現(xiàn)的是什么绅你。無監(jiān)督學(xué)習(xí)的目標(biāo)不是告訴計算機怎么做,而是讓計算機自己去學(xué)習(xí)怎么做搞糕,自己去探索數(shù)據(jù)并找到數(shù)據(jù)的規(guī)律勇吊。我們常說的“物以類聚,人以群分”就是最典型的例子窍仰,只要把相似度高的東西放在一起,模型就能發(fā)現(xiàn)它們的規(guī)律礼殊,對于新來的樣本驹吮,計算新樣本與原來樣本的相似度后,模型可以按照相似程度對它們進行歸類晶伦。常見的聚類問題都屬于無監(jiān)督學(xué)習(xí)碟狞。

半監(jiān)督學(xué)習(xí):在實際項目中,我們給數(shù)以億計的數(shù)據(jù)都打上標(biāo)簽是不大現(xiàn)實的婚陪,往往拿到的是其中只有少量數(shù)據(jù)有標(biāo)簽的海量數(shù)據(jù)族沃,這種情況非常不利于使用監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)就是為解決此類問題而產(chǎn)生的泌参,其目的在于利用海量未帶標(biāo)簽數(shù)據(jù)脆淹,輔之以少量帶標(biāo)簽數(shù)據(jù)進行學(xué)習(xí)訓(xùn)練,增強計算機的學(xué)習(xí)能力沽一。雖然無標(biāo)簽數(shù)據(jù)不能提供類別信息盖溺,但是這些數(shù)據(jù)中蘊含了大亮的數(shù)據(jù)分布信息,這些規(guī)律對模型學(xué)習(xí)起到正向幫助的作用铣缠。

半監(jiān)督學(xué)習(xí)可以被進一步劃分為純半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí)烘嘱。純半監(jiān)督學(xué)習(xí)假定訓(xùn)練數(shù)據(jù)中的未標(biāo)記樣本并非待預(yù)測數(shù)據(jù),而直推學(xué)習(xí)假定學(xué)習(xí)過程中所考慮的未標(biāo)記樣本就是待預(yù)測數(shù)據(jù)蝗蛙,學(xué)習(xí)的目標(biāo)就是在未標(biāo)記樣本上獲得最優(yōu)泛化性能蝇庭。也可以理解為純半監(jiān)督學(xué)習(xí)基于開放世界的假設(shè),直推學(xué)習(xí)基于封閉世界假設(shè)捡硅。

強化學(xué)習(xí):是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)哮内,目的是獲得最大的獎勵信號。強化學(xué)習(xí)會在沒有任何標(biāo)簽的情況下病曾,先嘗試做出一些動作得到一個結(jié)果牍蜂,通過這個結(jié)果的反饋漾根,調(diào)整之前的行為。也就是說強化學(xué)習(xí)輸出的是給機器的反饋鲫竞,用來判斷這個行為是正確還是錯誤的辐怕,其結(jié)果反饋有延時,有時候走了很多步以后才知道前面某一步選擇的優(yōu)劣从绘。

遷移學(xué)習(xí):考慮到大部分?jǐn)?shù)據(jù)或任務(wù)是存在相關(guān)性的寄疏,所以通過遷移學(xué)習(xí)我們可以將已經(jīng)學(xué)到的參數(shù)分享給新模型,把已經(jīng)訓(xùn)練好的模型參數(shù)遷移到新的模型來幫助新模型訓(xùn)練數(shù)據(jù)集僵井,從而加快并優(yōu)化模型的學(xué)習(xí)陕截。

二、數(shù)據(jù)的準(zhǔn)備工作

在監(jiān)督學(xué)習(xí)中批什,一般把數(shù)據(jù)集分成訓(xùn)練集农曲、驗證集與測試集三類。訓(xùn)練集是指專門用來供模型進行學(xué)習(xí)的樣本數(shù)據(jù)驻债。通過學(xué)習(xí)這些樣本乳规,模型可以調(diào)節(jié)自身的參數(shù)來建立一個分類器。驗證集是用來調(diào)節(jié)模型的超參數(shù)的合呐,測試集用來測試訓(xùn)練好的模型的分辨能力暮的,測試模型的性能。當(dāng)數(shù)據(jù)量多的時候淌实,上述三個數(shù)據(jù)集可以按照5:2.5:2.5的比例哼拔,或者8:1:1的比例劃分陨瘩,當(dāng)數(shù)據(jù)量少的時候诗芜,可以采用K折交叉驗證法究飞。

數(shù)據(jù)預(yù)處理

我們在拿到原始數(shù)據(jù)時,可能會存在缺失值缘屹、異常值凛剥、度量范圍不同、表達意義不準(zhǔn)轻姿、定性特征不能直接使用犁珠、信息利用率低等問題,為了解決這些問題互亮,需要采用數(shù)據(jù)預(yù)處理的方式對原始數(shù)據(jù)進行加工犁享。

數(shù)據(jù)預(yù)處理分為數(shù)據(jù)清洗數(shù)據(jù)集成豹休、數(shù)據(jù)變換數(shù)據(jù)歸約四個步驟炊昆。

數(shù)據(jù)清洗一般步驟為:格式標(biāo)準(zhǔn)化、錯誤糾正、異常數(shù)據(jù)清理凤巨、清除重復(fù)數(shù)據(jù)视乐,在面對實際問題時根據(jù)數(shù)據(jù)源的特點選擇合適的方法進行清洗即可。

數(shù)據(jù)集成是指將多個數(shù)據(jù)庫整合為一個數(shù)據(jù)庫敢茁,在這個過程中需要著重解決命名差異佑淀、數(shù)據(jù)冗余以及數(shù)據(jù)值沖突三個問題。

為了進一步尋找數(shù)據(jù)之間的聯(lián)系彰檬,挖掘更有價值的信息伸刃,我們可以嘗試數(shù)據(jù)變換,以提升模型準(zhǔn)確率逢倍,常見的數(shù)據(jù)變換方法有:標(biāo)準(zhǔn)化捧颅、歸一化、正則化较雕、二值化碉哑、對類別特征編碼、缺失值的插補等郎笆。

在分析大樣本集的內(nèi)在關(guān)聯(lián)前谭梗,一般會進行數(shù)據(jù)歸約,通過數(shù)據(jù)歸約的方式可以獲得與原數(shù)據(jù)集相比更小的歸約數(shù)據(jù)集宛蚓,同時去除冗余特征,減少建模工作量设塔,讓模型的學(xué)習(xí)速度更快凄吏,精度更高。數(shù)據(jù)歸約的三個基本操作是刪除列闰蛔、刪除行和減少列取值的數(shù)量痕钢,常見手段有維歸約、數(shù)據(jù)壓縮序六、數(shù)量歸約等任连。對一個數(shù)據(jù)集進行歸約之前,需要對計算時間例诀、預(yù)測精度以及數(shù)據(jù)挖掘的復(fù)雜度這三個方面進行分析随抠,只有當(dāng)項目擁有的資源能夠滿足這三方面條件時,才能進行大規(guī)模的數(shù)據(jù)歸約繁涂。

在進行數(shù)據(jù)預(yù)處理時拱她,可以通過數(shù)據(jù)可視化幫助我們直觀的了解數(shù)據(jù)狀況,常用直方圖與散點圖扔罪。直方圖用于描述連續(xù)型數(shù)據(jù)秉沼,可以直觀顯示各組取值分布情況和差異;散點圖通常用于比較不同類別的聚合數(shù)據(jù),可以檢查兩兩不同特征之間的關(guān)系唬复,還可以觀察點簇和離群點等情況矗积。

特征工程

除了提升原始數(shù)據(jù)的質(zhì)量以外,通過特征工程敞咧,可以幫助計算機挖掘出特征與特征之間的聯(lián)系棘捣,達到提升模型的目的。特征工程本質(zhì)上是一種特征轉(zhuǎn)化的過程妄均,原始數(shù)據(jù)通過特征工程轉(zhuǎn)化為更有意義的特征柱锹,其能夠表述原始數(shù)據(jù)的內(nèi)在關(guān)聯(lián)關(guān)系。

特征工程包括特征構(gòu)建丰包、特征提取和特征選擇三部分禁熏,特征構(gòu)建是從原有特征進行組合運算生成新的特征,特征提取和特征選擇都是為了從原始特征中找出最有效的特征邑彪。他們之間的區(qū)別在于瞧毙,特征提取改變了特征間的關(guān)系,如組合不同特征得到新的特征寄症,而特征選擇是從原始特征數(shù)據(jù)集中選出子集宙彪,子集與原始數(shù)據(jù)是一種包含關(guān)系释漆,沒有改變原始特征的特征空間。

特征選擇的方法很多,包括過濾法难裆、封裝發(fā)、嵌入法等偏化,過濾法是指按照特征的發(fā)散性和相關(guān)性對各個特征進行評分驶冒,設(shè)定一個閾值,選擇在閾值內(nèi)的特征需忿;封裝法使用算法訓(xùn)練模型,根據(jù)目標(biāo)模型計算的預(yù)測效果評分,每次選擇若干特征溢谤,或者排除若干特征;嵌入法是先使用算法訓(xùn)練模型,得到各個特征的權(quán)值系數(shù),再根據(jù)系數(shù)從大到小選擇特征,與過濾法不同,它是通過機器學(xué)習(xí)訓(xùn)練來確定特征的優(yōu)劣。不管哪種方法都是以特征是否發(fā)散劣像、特征與目標(biāo)的相關(guān)性如何這兩個條件作為選擇的標(biāo)準(zhǔn)。

三屋群、模型評估方法與指標(biāo)

常見的評估方法有留出法邪乍、k折交叉驗證、自助法吕晌、調(diào)參確定最終模型等。

在性能度量上,回歸任務(wù)最常用的性能度量是“均方誤差”屎蜓,分類任務(wù)中算灸,常用的性能度量方式有:

1荐吵、錯誤率與精度

錯誤率是分類錯誤的樣本數(shù)占樣本總數(shù)的比例,精度(accuracy、準(zhǔn)確率)則是分類正確的樣本數(shù)占樣本總數(shù)的比例占锯。

2、查準(zhǔn)率、查全率

查準(zhǔn)率(precision、精準(zhǔn)率)是針對預(yù)測結(jié)果而言的指標(biāo),它表示預(yù)測為正類的樣本中有多少是對的;查全率(recall、召回率)是針對原始樣本而言的指標(biāo),它表示原始樣本中的正例有多少被預(yù)測正確。理想情況下,我們希望查準(zhǔn)率和查全率兩者都高惕虑,然而事實上這兩者在很多情況下是互相矛盾的,當(dāng)查全率高時意味著需要盡可能找到原始樣本的正例统刮,因此模型覆蓋的數(shù)量會變多匀奏,模型就有更高的概率犯錯聚磺,將原本不屬于該分類的樣本也加進來,這就導(dǎo)致查準(zhǔn)率下降咪啡。

查準(zhǔn)率與精度是比較容易混淆的兩個評估指標(biāo),兩者的核心區(qū)別在與,查準(zhǔn)率是一個二分類指標(biāo),只適用于二分類任務(wù),而精度能應(yīng)用于多分類任務(wù)帕棉。

以查準(zhǔn)率為縱軸具则、查全率為橫軸,就得到了“P-R曲線”术奖,顯示該曲線的圖稱為“P-R圖”,可以直觀的顯示出學(xué)習(xí)器在樣本總體上的查準(zhǔn)率和查全率唧龄,在進行比較時兼砖,若一個學(xué)習(xí)器的P-R曲線被另一個學(xué)習(xí)器的曲線完全“包住”,則可斷言后者性能優(yōu)于前者既棺》硇“平衡點”(Break-Event Point、BEP)是“查準(zhǔn)率=查全率”時的取值丸冕,可以綜合考慮查準(zhǔn)率和查全率的性能度量耽梅。

3、F值

BEP相對而言還是過于簡化了些胖烛,為了使查準(zhǔn)率和查全率有個更綜合的評價眼姐,引入F指度量(F-Measure)的概念,其計算公式為:

當(dāng)查準(zhǔn)率和查全率最接近時佩番,F(xiàn)值最大众旗,其系數(shù)固定為1時,F(xiàn)值就變成了F1度量趟畏,其公式為:

4逝钥、ROC與AUC

ROC(Receiver Operating Characteristic、受試者工作特征)曲線可以幫助我們從圖像的角度分辨兩個分類結(jié)果的分布情況以及選擇模型合適的閾值,其橫坐標(biāo)為假正類率(FPR=FP/(FP+TN))艘款,縱坐標(biāo)為真正類率(TPR=TP/(TP+FN)),對于一個分類器而言沃琅,每個閾值下都會有一個FPR和TPR哗咆,這個分類器就可以被映射成ROC平面上的一個點。ROC曲線有個很好的特性:當(dāng)測試集中的正負樣本的分布變化的時候益眉,ROC曲線能夠保持不變晌柬。

在進行學(xué)習(xí)器比較時,若一個學(xué)習(xí)器的ROC曲線被另一個學(xué)習(xí)器的曲線完全“包住”郭脂,則可斷言后者的性能優(yōu)于前者年碘;若兩個學(xué)習(xí)器的ROC曲線發(fā)生交叉,則難以一般性的斷言兩者優(yōu)劣展鸡,如果此時一定要進行比較屿衅,較為合理的判據(jù)是比較ROC曲線下的面積,即AUC(Area Under?ROC Curve)莹弊。AUC值是指隨機給定一個正樣本和一個負樣本涤久,分類器輸出該正樣本為正的概率值比分類器輸出該負樣本為正的那個概率值要大的可能性,AUC值越高代表模型的排序能力越強忍弛。

5响迂、偏差與方差

“偏差-方差分解”是解釋學(xué)習(xí)算法泛化性能的一種重要工具,泛化誤差可分解為偏差细疚、方差與噪聲之和蔗彤,偏差度量了學(xué)習(xí)算法的期望預(yù)測與真實結(jié)果的偏離程度,即刻畫了學(xué)習(xí)算法本身的擬合能力疯兼;方差度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化然遏,即刻畫了數(shù)據(jù)擾動所造成的影響;噪聲則表達了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達到的期望泛化誤差的下界镇防,即刻畫了學(xué)習(xí)問題本身的難度啦鸣。

一般來說,偏差與方差是有沖突的来氧,稱為偏差-方差窘境诫给。假定我們能控制學(xué)習(xí)算法的訓(xùn)練程度,在訓(xùn)練不足時啦扬,學(xué)習(xí)器的擬合能力不夠強中狂,訓(xùn)練數(shù)據(jù)的擾動不足以使學(xué)習(xí)器發(fā)生顯著變化,此時偏差主導(dǎo)了泛化錯誤率扑毡;隨著訓(xùn)練程度的加深胃榕,學(xué)習(xí)器的擬合能力逐漸增強,訓(xùn)練數(shù)據(jù)發(fā)生的擾動漸漸能被學(xué)習(xí)器學(xué)到瞄摊,方差逐漸主導(dǎo)了泛化錯誤率勋又;在訓(xùn)練程度充足后苦掘,學(xué)習(xí)器的擬合能力已經(jīng)非常強,訓(xùn)練數(shù)據(jù)輕微擾動都會導(dǎo)致學(xué)習(xí)器發(fā)生顯著變化楔壤,若訓(xùn)練數(shù)據(jù)自身的鹤啡、非全局的特性被學(xué)習(xí)器學(xué)習(xí)到了,則將發(fā)生過擬合蹲嚣。

四递瑰、算法總結(jié)

(一)回歸分析

回歸分析是最基礎(chǔ)最常用的算法之一,它是一種確定兩個及兩個以上變量間相互依賴關(guān)系的統(tǒng)計分析方法隙畜《恫浚回歸分析按照涉及的變量數(shù)量,可分為一元回歸分析與多元回歸分析议惰;按照自變量和因變量之間的關(guān)系類型慎颗,可分為線性回歸分析和非線性回歸分析。

在回歸分析中换淆,自變量和因變量是線性關(guān)系的哗总,如果只包括一個自變量和一個因變量,稱為一元線性回歸倍试,如果包括兩個或兩個以上自變量讯屈,稱為多元線性回歸,在線性回歸中县习,我們很難找到完全擬合所有真實樣本點的函數(shù)涮母,預(yù)測點和樣本點之間總是存在誤差,因此尋找最理想的擬合函數(shù)的過程變成了尋找使得誤差最小的函數(shù)的過程躁愿,在數(shù)學(xué)上表示為損失函數(shù)的最小化求解叛本,通常可以使用最小二乘法求解損失函數(shù)的最小值彤钟。在統(tǒng)計學(xué)中常用判定系數(shù)R2判斷回歸方程的擬合程度来候,R2越大代表回歸線擬合程度越好。

優(yōu)點:

1逸雹、實現(xiàn)簡單营搅,計算簡單,速度快

2梆砸、可以根據(jù)系數(shù)給出每個變量的理解和解釋

缺點:

1转质、不能擬合非線性數(shù)據(jù)

2、對異常值敏感

應(yīng)用場景:自變量與因變量存在某種線性關(guān)系的場景帖世,如產(chǎn)品運營中預(yù)測目標(biāo)的趨勢發(fā)展休蟹。

邏輯回歸是在線性回歸的基礎(chǔ)上,套用了一個激活函數(shù),即sigmoid函數(shù)赂弓,使得原本敏感的函數(shù)變的更柔和绑榴,將原本對正類或負類的結(jié)果預(yù)測,轉(zhuǎn)化為對正類或負類的概率預(yù)測盈魁。邏輯回歸實際是一種分類學(xué)習(xí)的方法彭沼,但其本質(zhì)上仍然是一個線性回歸模型,因此邏輯回歸求解方法與線性回歸相同备埃,都是通過構(gòu)造損失函數(shù)的方法逼近最優(yōu)解,邏輯回歸中利用最大似然法建立目標(biāo)函數(shù)和損失函數(shù)褐奴,通常使用梯度下降法求解損失函數(shù)的最小值按脚。

優(yōu)點:

1、易于理解和實現(xiàn)

2敦冬、分類時計算量非常小辅搬,速度很快,存儲資源低

3脖旱、便利的觀測樣本概率分?jǐn)?shù)

缺點:

1堪遂、當(dāng)特征空間很大時,邏輯回歸的性能不是很好

2萌庆、容易欠擬合溶褪,一般準(zhǔn)確度不太高

3、一般處理兩分類問題(在此基礎(chǔ)上衍生出來的softmax可以用于多分類)践险,

4猿妈、需線性可分,對于非線性特征巍虫,需要進行轉(zhuǎn)換

應(yīng)用場景:

1彭则、用于二分類領(lǐng)域,可以得出概率值占遥,適用于根據(jù)分類概率排名的領(lǐng)域俯抖,如搜索排名等

2、Logistic回歸的擴展softmax可以應(yīng)用于多分類領(lǐng)域瓦胎,如手寫字識別等

3芬萍、經(jīng)濟預(yù)測、信用評估

4凛捏、測量市場營銷的成功度担忧、預(yù)測某產(chǎn)品的收益

5、疾病診斷

(二)決策樹

決策樹屬于有監(jiān)督學(xué)習(xí)坯癣,是一種基本的分類和回歸方法瓶盛。一般情況下,一棵決策樹包含一個根節(jié)點、若干個內(nèi)部節(jié)點和若干個葉子節(jié)點惩猫,樹中的根節(jié)點與每個內(nèi)部節(jié)點都表示一個特征或?qū)傩灾ビ玻~節(jié)點表示一個分類結(jié)果,每個分叉路徑代表某個可能的屬性值轧房。選擇特征的評判標(biāo)準(zhǔn)不同拌阴,衍生了不同的決策樹算法。

ID3算法中奶镶,使用信息增益作為純度的度量迟赃。信息增益=信息熵-條件熵,可以用該公式計算每個特征的信息增益厂镇,然后選取使得信息增益最大的特征作為判斷節(jié)點纤壁。

在C4.5算法中,使用增益率作為度量標(biāo)準(zhǔn)捺信,這種方式克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足酌媒,信息增益率=信息增益/分裂信息度量,選擇信息增益率最大的特征作為判斷節(jié)點迄靠。C4.5算法采用了剪枝方法秒咨,避免模型產(chǎn)生過擬合的現(xiàn)象。

在CART算法中掌挚,使用基尼系數(shù)來代替信息增益率雨席,基尼系數(shù)代表了模型的不純度,基尼系數(shù)越小疫诽,則不純度越低舅世,特征越好。這和信息增益的概念是相反的奇徒。

三種決策樹對比如下:

優(yōu)點:

1雏亚、輸出結(jié)果易于理解,可以可視化分析摩钙,容易提取出規(guī)則

2罢低、計算復(fù)雜度不高,在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果胖笛,測試數(shù)據(jù)集時网持,運行速度比較快

3、對中間值的缺失不敏感长踊,比較適合處理有缺失屬性的樣本

4功舀、可以處理不相關(guān)特征數(shù)據(jù)

5、可以同時處理標(biāo)稱型和數(shù)值型數(shù)據(jù)

6身弊、路徑是互斥和完備的

缺點:

1. 容易發(fā)生過擬合(隨機森林可以很大程度上減少過擬合)

2. 容易忽略數(shù)據(jù)集中屬性的相互關(guān)聯(lián)

3. 對于那些各類別樣本數(shù)量不一致的數(shù)據(jù)辟汰,在決策樹中列敲,進行屬性劃分時,不同的判定準(zhǔn)則會帶來不同的屬性選擇傾向帖汞;信息增益準(zhǔn)則對可取數(shù)目較多的屬性有所偏好(ID3)戴而,而增益率準(zhǔn)則(CART)則對可取數(shù)目較少的屬性有所偏好

應(yīng)用場景:

決策樹早期主要用來解決二分類問題,在企業(yè)管理實踐翩蘸,企業(yè)投資決策所意,惡意入侵監(jiān)測、預(yù)測互聯(lián)網(wǎng)用戶在線廣告點擊率等場景上都有較高表現(xiàn)催首,由于決策樹很好的分析能力扶踊,在決策過程應(yīng)用較多,但決策樹尋找到的最優(yōu)解只是一個局部最優(yōu)解郎任,這使得決策樹的適用場景比較受限姻檀。

(三)樸素貝葉斯

樸素貝葉斯是一種有監(jiān)督的學(xué)習(xí)算法,它是以“貝葉斯定理”和“特征條件獨立假設(shè)”為基礎(chǔ)涝滴。其中心思想很簡單,先對某事會不會發(fā)生預(yù)估一個主觀的先驗概率胶台,再根據(jù)隨后觀察到的結(jié)果進行調(diào)整歼疮,隨著調(diào)整次數(shù)的增加,得到的概率將會越來越精確诈唬,這個概率稱為后驗概率韩脏。計算時,先計算聯(lián)合概率分布赡矢,然后再利用貝葉斯工時計算給定的某個樣本數(shù)據(jù)后阅仔,被分到每個類別的概率分別是多少,然后取被分到概率最大的類別作為該樣本數(shù)據(jù)的類別八酒。

在文本處理領(lǐng)域空民,樸素貝葉斯算法有廣闊的應(yīng)用前景羞迷,非常適合處理文本類的信息,例如垃圾郵件檢測衔瓮、違規(guī)信息檢測及文檔分類等浊猾。其將條件變量之間的獨立性假設(shè)應(yīng)用到文本分類中:一是假設(shè)各個特征詞對分類的影響是獨立的;另一個是假設(shè)詞語先后順序的變化與詞頻對于結(jié)果沒有影響葫慎。但實際情況中詞語先后順序與詞頻對郵件內(nèi)容有直接影響,因此我們采用多項式模型和伯努利模型來避免條件獨立假設(shè)帶來的影響米奸,伯努利模型也稱文檔模型爽篷,以“文檔”為統(tǒng)計單位,統(tǒng)計某個特征詞出現(xiàn)在多少個文檔中铡溪;多項式模型稱為詞頻模型泪喊,以“單詞”為統(tǒng)計單位。伯努利模型更適合處理段文檔哈扮,在特征數(shù)量較少時效果較好蚓再,多項式模型適合處理長文檔,在特征數(shù)量較多時效果較好靶庙。

優(yōu)點:

1. 樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論娃属,有著堅實的數(shù)學(xué)基礎(chǔ)矾端,以及穩(wěn)定的分類效率

2. 對大數(shù)量訓(xùn)練和查詢具有較高的速度。即使使用超大規(guī)模的訓(xùn)練集铐料,針對每個項目通常也只會有相對較少的特征數(shù)豺旬,并且對項目的訓(xùn)練和分類也僅僅是特征概率的數(shù)學(xué)運算而已

3. 對小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能個處理多分類任務(wù)篓跛,適合增量式訓(xùn)練(即可以實時的對新增的樣本進行訓(xùn)練)

4. 對缺失數(shù)據(jù)不太敏感,算法也比較簡單

5. 樸素貝葉斯對結(jié)果解釋容易理解

缺點:

1. 需要計算先驗概率

2. 分類決策存在錯誤率

3. 對輸入數(shù)據(jù)的表達形式很敏感

4. 由于使用了樣本屬性獨立性的假設(shè)坦刀,所以如果樣本屬性有關(guān)聯(lián)時其效果不好

(四)支持向量機

支持向量機(SVM)是一個以“最大間隔”作為分類標(biāo)準(zhǔn)的二分類算法蔬咬。其核心思想是對于給定的數(shù)據(jù)集沐寺,在樣本空間中找到一個劃分超平面混坞,從而將兩種不同類別的樣本分開,并且這個劃分超平面對于最接近的數(shù)據(jù)點間隔最大啥酱。

對于線性可分的數(shù)據(jù)厨诸,我們考慮從點到平面的距離公式入手,給出這個劃分超平面的數(shù)學(xué)定義绘趋。首先通過“支持向量”求出超平面的表達式埋心,然后構(gòu)造這個超平面的約束優(yōu)化條件忙上,接下來將有約束的原始目標(biāo)函數(shù)轉(zhuǎn)換為無約束的拉格朗日目標(biāo)函數(shù)闲坎。為了簡化求解過程腰懂,我們使用拉格朗日的對偶性,將不易求解的優(yōu)化問題轉(zhuǎn)換為易求解的優(yōu)化問題慷彤,最后再利用序列最小優(yōu)化方法(SMO)求解得出超平面怖喻,這就是線性SVM的求解過程锚沸。

對于非線性可分的數(shù)據(jù)集,我們需要將低維線性不可分的數(shù)據(jù)轉(zhuǎn)換到高維前标,讓數(shù)據(jù)集變的線性可分。在轉(zhuǎn)換到高維空間的過程中只搁,由于內(nèi)積的計算量太大氢惋,導(dǎo)致無法直接計算目溉,因此我們需要借助核函數(shù)來簡化計算。在實際項目中柿估,我們不知道特征映射的形式秫舌,所以使用者只能多次嘗試各種核函數(shù)绣檬,選擇其中效果最好的。

以上情況都是沒有噪聲數(shù)據(jù)的理想情況墨缘。當(dāng)數(shù)據(jù)存在噪聲時零抬,我們需要使用軟間隔支持向量機平夜。軟間隔支持向量機是在硬間隔的基礎(chǔ)上增加一個松弛因子,讓誤分類的樣本多了一個懲罰項玩裙,在實際使用時可以通過懲罰項調(diào)節(jié)誤分類樣本與平面最大間隔的平衡吃溅。

優(yōu)點:

1. 可以解決高維問題鸯檬,即大型特征空間

2. 解決小樣本下機器學(xué)習(xí)問題

3. 能夠處理非線性特征的相互作用

4. 無局部極小值問題京闰;(相對于神經(jīng)網(wǎng)絡(luò)等算法)

5. 無需依賴整個數(shù)據(jù)甩苛,只需保留幾個支持向量就夠了俏站,極大地減小了內(nèi)存的占用肄扎,而效果卻不差

6. 泛化能力比較強

缺點:

1. 當(dāng)觀測樣本很多時,效率并不是很高

2. 對非線性問題沒有通用解決方案旭等,有時候很難找到一個合適的核函數(shù)

3. 對于核函數(shù)的高維映射解釋力不強搔耕,尤其是徑向基函數(shù)

4. 常規(guī)SVM只支持二分類

5. 對缺失數(shù)據(jù)敏感

應(yīng)用場景:文本分類痰娱、圖像識別(主要二分類領(lǐng)域梨睁,畢竟常規(guī)SVM只能解決二分類問題)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末坡贺,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子拳亿,更是在濱河造成了極大的恐慌政鼠,老刑警劉巖公般,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件官帘,死亡現(xiàn)場離奇詭異昧谊,居然都是意外死亡呢诬,警方通過查閱死者的電腦和手機胖缤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門哪廓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來初烘,“玉大人肾筐,你說我怎么就攤上這事《啵” “怎么了抓歼?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵谣妻,是天一觀的道長蹋半。 經(jīng)常有香客問我,道長染突,這世上最難降的妖魔是什么辈灼? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任巡莹,我火速辦了婚禮降宅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘激才。我一直安慰自己,他們只是感情好劣挫,可當(dāng)我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布揣云。 她就那樣靜靜地躺著邓夕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪藏澳。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天,我揣著相機與錄音碳柱,去河邊找鬼莲镣。 笑死涎拉,一個胖子當(dāng)著我的面吹牛鼓拧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播钮糖,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼店归,長吁一口氣:“原來是場噩夢啊……” “哼娱节!你這毒婦竟也來了祭示?” 一聲冷哼從身側(cè)響起质涛,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤汇陆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后阅羹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捏鱼,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡导梆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年看尼,在試婚紗的時候發(fā)現(xiàn)自己被綠了藏斩。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片址芯。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡谷炸,死狀恐怖旬陡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情驶睦,我是刑警寧澤匿醒,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布廉羔,位于F島的核電站,受9級特大地震影響髓削,放射性物質(zhì)發(fā)生泄漏镀娶。R本人自食惡果不足惜梯码,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一轩娶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧廓握,春花似錦隙券、人聲如沸闹司。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至陪每,卻和暖如春檩禾,著一層夾襖步出監(jiān)牢的瞬間疤祭,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工啦辐, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蜈项,地道東北人紧卒。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓跑芳,卻偏偏與公主長得像直颅,于是被迫代替她去往敵國和親功偿。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內(nèi)容