一、常用算法
(一). k最近鄰:
kNN算法是著名的模式識(shí)別統(tǒng)計(jì)學(xué)方法救湖,是最好的文本分類算法之一涎拉,在機(jī)器學(xué)習(xí)分類算法中占有相當(dāng)大的地位,是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一旗扑。
思想:官方解釋為給定測(cè)試樣本蹦骑,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本,然后基于這k個(gè)"鄰居"的信息來進(jìn)行預(yù)測(cè)臀防。通俗點(diǎn)說:就是計(jì)算一個(gè)點(diǎn)與樣本空間所有點(diǎn)之間的距離眠菇,取出與該點(diǎn)最近的k個(gè)點(diǎn),然后統(tǒng)計(jì)這k個(gè)點(diǎn)里面所屬分類比例最大的(“回歸”里面使用平均法)袱衷,則點(diǎn)A屬于該分類捎废。
三個(gè)基本要素:k值的選擇、距離度量致燥、分類決策規(guī)則
算法計(jì)算步驟:
1登疗、算距離: 給定測(cè)試對(duì)象,計(jì)算它與訓(xùn)練集中的每個(gè)對(duì)象的距離嫌蚤;
2辐益、找鄰居:圈定距離最近的k個(gè)訓(xùn)練對(duì)象,作為測(cè)試對(duì)象的近鄰脱吱;
3智政、做分類:根據(jù)這k個(gè)近鄰歸屬的主要類別,來對(duì)測(cè)試對(duì)象分類箱蝠;
距離的計(jì)算方式(相似性度量):歐式距離/曼哈頓距離
類別的判定:
投票法:少數(shù)服從多數(shù)续捂,近鄰中哪個(gè)類別的點(diǎn)最多就分為該類。
加權(quán)投票法:根據(jù)距離的遠(yuǎn)近宦搬,對(duì)鄰近的投票進(jìn)行加權(quán)牙瓢,距離越近則權(quán)重越大(權(quán)重為距離平方的倒數(shù))。
優(yōu)點(diǎn):
1间校、簡(jiǎn)單矾克,易于理解,易于實(shí)現(xiàn)憔足,無需估計(jì)參數(shù)聂渊,無需訓(xùn)練;
2四瘫、適合對(duì)稀有事件進(jìn)行分類汉嗽;
3、特別適合于多分類問題(multi-modal,對(duì)象具有多個(gè)類別標(biāo)簽)找蜜, kNN比SVM的表現(xiàn)要好饼暑。
缺點(diǎn):
?????? 1、樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。
該算法在分類時(shí)有個(gè)主要的不足是弓叛,當(dāng)樣本不平衡時(shí)彰居,如一個(gè)類的樣本容量很大,而其他類樣本容量很小時(shí)撰筷,有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí)陈惰,該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù)。
該算法只計(jì)算“最近的”鄰居樣本毕籽,某一類的樣本數(shù)量很大抬闯,那么或者這類樣本并不接近目標(biāo)樣本,或者這類樣本很靠近目標(biāo)樣本关筒。無論怎樣溶握,數(shù)量并不能影響運(yùn)行結(jié)果。
?????? 2蒸播、該方法的另一個(gè)不足之處是計(jì)算量較大睡榆,因?yàn)閷?duì)每一個(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離,才能求得它的K個(gè)最近鄰點(diǎn)袍榆。
?????? 3胀屿、可理解性差,無法給出像決策樹那樣的規(guī)則包雀。
常見問題:
1宿崭、k值設(shè)定
k值選擇過小,得到的近鄰數(shù)過少馏艾,會(huì)降低分類精度,同時(shí)也會(huì)放大噪聲數(shù)據(jù)的干擾奴愉;而如果k值選擇過大琅摩,并且待分類樣本屬于訓(xùn)練集中包含數(shù)據(jù)數(shù)較少的類,那么在選擇k個(gè)近鄰的時(shí)候锭硼,實(shí)際上并不相似的數(shù)據(jù)亦被包含進(jìn)來房资,造成噪聲增加而導(dǎo)致分類效果的降低。如何選取恰當(dāng)?shù)腒值也成為KNN的研究熱點(diǎn)檀头。k值通常是采用交叉檢驗(yàn)來確定(以k=1為基準(zhǔn))轰异。
經(jīng)驗(yàn)規(guī)則:k一般低于訓(xùn)練樣本數(shù)的平方根。
2暑始、類別的判定方式
投票法沒有考慮近鄰的距離的遠(yuǎn)近搭独,距離更近的近鄰也許更應(yīng)該決定最終的分類,所以加權(quán)投票法更恰當(dāng)廊镜。
3牙肝、距離度量方式的選擇
高維度對(duì)距離衡量的影響:眾所周知當(dāng)變量數(shù)越多,歐式距離的區(qū)分能力就越差。
變量值域?qū)嚯x的影響:值域越大的變量常常會(huì)在距離計(jì)算中占據(jù)主導(dǎo)作用配椭,因此應(yīng)先對(duì)變量進(jìn)行標(biāo)準(zhǔn)化虫溜。
4、訓(xùn)練樣本的參考原則
學(xué)者們對(duì)于訓(xùn)練樣本的選擇進(jìn)行研究股缸,以達(dá)到減少計(jì)算的目的衡楞,這些算法大致可分為兩類。第一類,減少訓(xùn)練集的大小敦姻。KNN算法存儲(chǔ)的樣本數(shù)據(jù),這些樣本數(shù)據(jù)包含了大量冗余數(shù)據(jù),這些冗余的數(shù)據(jù)增了存儲(chǔ)的開銷和計(jì)算代價(jià)瘾境。縮小訓(xùn)練樣本的方法有:在原有的樣本中刪掉一部分與分類相關(guān)不大的樣本樣本,將剩下的樣本作為新的訓(xùn)練樣本;或在原來的訓(xùn)練樣本集中選取一些代表樣本作為新的訓(xùn)練樣本替劈;或通過聚類,將聚類所產(chǎn)生的中心點(diǎn)作為新的訓(xùn)練樣本寄雀。
在訓(xùn)練集中,有些樣本可能是更值得依賴的陨献『杏蹋可以給不同的樣本施加不同的權(quán)重,加強(qiáng)依賴樣本的權(quán)重眨业,降低不可信賴樣本的影響急膀。
5、性能問題
kNN是一種懶惰算法龄捡,而懶惰的后果:構(gòu)造模型很簡(jiǎn)單卓嫂,但在對(duì)測(cè)試樣本分類地的系統(tǒng)開銷大,因?yàn)橐獟呙枞坑?xùn)練樣本并計(jì)算距離聘殖。已經(jīng)有一些方法提高計(jì)算的效率晨雳,例如壓縮訓(xùn)練樣本量等。
參考:
KNN和SVM的區(qū)別_人工智能_湖心亭-CSDN博客
(二). 隨機(jī)森林:
隨機(jī)森林就是通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法奸腺,它的基本單元是決策樹餐禁,而它的本質(zhì)屬于機(jī)器學(xué)習(xí)的一大分支——集成學(xué)習(xí)(Ensemble Learning)方法。隨機(jī)森林的名稱中有兩個(gè)關(guān)鍵詞突照,一個(gè)是“隨機(jī)”帮非,一個(gè)就是“森林”。
“森林”我們很好理解讹蘑,一棵叫做樹末盔,那么成百上千棵就可以叫做森林了,這樣的比喻還是很貼切的座慰,其實(shí)這也是隨機(jī)森林的主要思想--集成思想的體現(xiàn)陨舱。從直觀角度來解釋,每棵決策樹都是一個(gè)分類器(假設(shè)現(xiàn)在針對(duì)的是分類問題)版仔,那么對(duì)于一個(gè)輸入樣本隅忿,N棵樹會(huì)有N個(gè)分類結(jié)果心剥。隨機(jī)森林集成了所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出背桐,這就是一種最簡(jiǎn)單的 Bagging 思想优烧。
“隨機(jī)”是指bootstrap sample(隨機(jī)且有放回地抽取)兩個(gè)隨機(jī)性链峭。如果不進(jìn)行隨機(jī)抽樣畦娄,每棵樹的訓(xùn)練集都一樣,那么最終訓(xùn)練出的樹分類結(jié)果也是完全一樣的弊仪,這樣的話完全沒有bagging的必要熙卡;如果不是有放回的抽樣,那么每棵樹的訓(xùn)練樣本都是不同的励饵,都是沒有交集的驳癌,這樣每棵樹都是"有偏的",都是絕對(duì)"片面的"(當(dāng)然這樣說可能不對(duì))役听,也就是說每棵樹訓(xùn)練出來都是有很大的差異的颓鲜。兩個(gè)隨機(jī)性的引入對(duì)隨機(jī)森林的分類性能至關(guān)重要。由于它們的引入典予,使得隨機(jī)森林不容易陷入過擬合甜滨,并且具有很好得抗噪能力(比如:對(duì)缺省值不敏感)。
隨機(jī)森林的生成
1)如果訓(xùn)練集大小為N瘤袖,對(duì)于每棵樹而言衣摩,隨機(jī)且有放回地從訓(xùn)練集中的抽取N個(gè)訓(xùn)練樣本(這種采樣方式稱為bootstrap sample方法),作為該樹的訓(xùn)練集捂敌;
2)如果每個(gè)樣本的特征維度為M艾扮,指定一個(gè)常數(shù)m<<M,隨機(jī)地從M個(gè)特征中選取m個(gè)特征子集占婉,每次樹進(jìn)行分裂時(shí)泡嘴,從這m個(gè)特征中選擇最優(yōu)的;
3)每棵樹都盡最大程度的生長(zhǎng)锐涯,并且沒有剪枝過程磕诊。
隨機(jī)森林分類效果(錯(cuò)誤率)與兩個(gè)因素有關(guān):
森林中任意兩棵樹的相關(guān)性:相關(guān)性越大填物,錯(cuò)誤率越大纹腌;
森林中每棵樹的分類能力:每棵樹的分類能力越強(qiáng),整個(gè)森林的錯(cuò)誤率越低滞磺。
減小特征選擇個(gè)數(shù)m升薯,樹的相關(guān)性和分類能力也會(huì)相應(yīng)的降低;增大m击困,兩者也會(huì)隨之增大涎劈。所以關(guān)鍵問題是如何選擇最優(yōu)的m(或者是范圍)广凸,這也是隨機(jī)森林唯一的一個(gè)參數(shù)。
參考:
【機(jī)器學(xué)習(xí)】 隨機(jī)森林(Random Forest)_人工智能_云峰閣-CSDN博客
隨機(jī)森林的優(yōu)缺點(diǎn)_網(wǎng)絡(luò)_keepreder-CSDN博客
(三). 支持向量機(jī):
從某種意義上來說是邏輯回歸算法的強(qiáng)化:通過給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件蛛枚,支持向量機(jī)算法可以獲得比邏輯回歸更好的分類界線谅海。但是如果沒有某類函數(shù)技術(shù),則支持向量機(jī)算法最多算是一種更好的線性分類技術(shù)蹦浦。
但是扭吁,通過跟高斯“核”的結(jié)合,支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類界線盲镶,從而達(dá)成很好的的分類效果侥袜。“核”事實(shí)上就是一種特殊的函數(shù)溉贿,最典型的特征就是可以將低維的空間映射到高維的空間枫吧。
SVM方法是通過一個(gè)非線性映射p,把樣本空間映射到一個(gè)高維乃至無窮維的特征空間中(Hilber空間)宇色,使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題九杂。升維,就是把樣本向高維空間做映射代兵,一般情況下這會(huì)增加計(jì)算的復(fù)雜性尼酿,甚至?xí)稹熬S數(shù)災(zāi)難”,因而人們很少問津植影。但是作為分類裳擎、回歸等問題來說,很可能在低維樣本空間無法線性處理的樣本集思币,在高維特征空間中卻可以通過一個(gè)線性超平面實(shí)現(xiàn)線性劃分(或回歸)鹿响。一般的升維都會(huì)帶來計(jì)算的復(fù)雜化,SVM方法巧妙地解決了這個(gè)難題:應(yīng)用核函數(shù)的展開定理谷饿,就不需要知道非線性映射的顯式表達(dá)式惶我;由于是在高維特征
空間中建立線性學(xué)習(xí)機(jī),所以與線性模型相比博投,不但幾乎不增加計(jì)算的復(fù)雜性绸贡,而且在某種程度上避免了“維數(shù)災(zāi)難”.這一切要?dú)w功于核函數(shù)的展開和計(jì)算理論。
選擇不同的核函數(shù)毅哗,可以生成不同的SVM听怕,常用的核函數(shù)有以下4種:
- 性核函數(shù)K(x,y)=x·y
- 多項(xiàng)式核函數(shù)K(x,y)=[(x·y)+1]d
- 向基函數(shù)K(x,y)=exp(-|x-y|^2/d^2)
- 層神經(jīng)網(wǎng)絡(luò)核函數(shù)K(x,y)=tanh(a(x·y)+b)
我們?nèi)绾卧诙S平面劃分出一個(gè)圓形的分類界線?在二維平面可能會(huì)很困難虑绵,但是通過“核”可以將二維空間映射到三維空間尿瞭,然后使用一個(gè)線性平面就可以達(dá)成類似效果。也就是說翅睛,二維平面劃分出的非線性分類界線可以等價(jià)于三維平面的線性分類界線声搁。于是黑竞,我們可以通過在三維空間中進(jìn)行簡(jiǎn)單的線性劃分就可以達(dá)到在二維平面中的非線性劃分效果。
支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法(相對(duì)的疏旨,神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)很魂。在算法的核心步驟中,有一步證明檐涝,即將數(shù)據(jù)從低維映射到高維不會(huì)帶來最后計(jì)算復(fù)雜性的提升莫换。于是,通過支持向量機(jī)算法骤铃,既可以保持計(jì)算效率拉岁,又可以獲得非常好的分類效果。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位惰爬,基本取代了神經(jīng)網(wǎng)絡(luò)算法喊暖。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起,兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變撕瞧。
(四)神經(jīng)網(wǎng)絡(luò)
針對(duì)非線性分類的問題陵叽,神經(jīng)網(wǎng)絡(luò)是其中最早出現(xiàn)的一種。人工神經(jīng)網(wǎng)絡(luò)(ANN)丛版,簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)巩掺,是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算页畦。大多數(shù)情況下人工神經(jīng)網(wǎng)絡(luò)能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu)胖替,是一種自適應(yīng)系統(tǒng)。現(xiàn)代神經(jīng)網(wǎng)絡(luò)是一種非線性統(tǒng)計(jì)性數(shù)據(jù)建模工具豫缨,常用來對(duì)輸入和輸出間復(fù)雜的關(guān)系進(jìn)行建模独令,或用來探索數(shù)據(jù)的模式。
總的來說好芭,K近鄰和決策樹是天生的非線性分類器燃箭,它們會(huì)在你所給定的特征空間內(nèi)進(jìn)行分類。NN與SVM舍败,雖然是線性分類器(所以感知機(jī)模型是兩者的祖宗)招狸,但是它們會(huì)很聰明地自己構(gòu)建新的特征空間使得數(shù)據(jù)集線性可分,最后呈現(xiàn)出非線性分類的效果邻薯。兩者方式不同裙戏,SVM是將數(shù)據(jù)投射到高維的空間內(nèi)再做超平面對(duì)數(shù)據(jù)線性分割,而NN則是利用激活函數(shù)(sigmoid弛说,tanh挽懦,softmax等)將數(shù)據(jù)投射到類似于曲面化了的特征空間(這個(gè)空間是有隱藏層決定的)翰意。
– SVM的理論基礎(chǔ)比NN更堅(jiān)實(shí)木人,更像一門嚴(yán)謹(jǐn)?shù)摹翱茖W(xué)”(三要素:?jiǎn)栴}的表示信柿、問題的解決、證明)
– SVM ——嚴(yán)格的數(shù)學(xué)推理
–ANN ——強(qiáng)烈依賴于工程技巧
–推廣能力取決于“經(jīng)驗(yàn)風(fēng)險(xiǎn)值”和“置信范圍值”醒第,ANN不能控制兩者中的任何一個(gè)渔嚷。
–ANN設(shè)計(jì)者用高超的工程技巧彌補(bǔ)了數(shù)學(xué)上的缺陷——設(shè)計(jì)特殊的結(jié)構(gòu),利用啟發(fā)式算法稠曼,有時(shí)能得到出人意料的好結(jié)果形病。
正如費(fèi)曼指出的那樣“我們必須從一開始就澄清一個(gè)觀點(diǎn),就是如果某事不是科學(xué)霞幅,它并不一定不好漠吻。比如說,愛情就不是科學(xué)司恳。因此途乃,如果我們說某事不是科學(xué),并不是說它有什么不對(duì)扔傅,而只是說它不是科學(xué)耍共。”與SVM相比,ANN不像一門科學(xué)猎塞,更像一門工程技巧试读,但并不意味著它就一定就不好。
參考:
『MACHINE LEARNING』讀書筆記|神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)的聯(lián)系_網(wǎng)絡(luò)_amazingmango的博客-CSDN博客
R語言? 神經(jīng)網(wǎng)絡(luò)算法 - 一菲寶寶 - 博客園
機(jī)器學(xué)習(xí)常用模型 - leizhao - 博客園
深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)關(guān)系_網(wǎng)絡(luò)_Seth的博客-CSDN博客
(五)樸素貝葉斯
樸素貝葉斯分類法是一種生成學(xué)習(xí)算法荠耽。對(duì)于待分類樣本钩骇,求出在該樣本的各特征出現(xiàn)的條件下,其屬于每種類別的概率(P(Yi|X))铝量,哪種類別的概率大就將該樣本判別為哪一種類別伊履。
參考:
樸素貝葉斯分類法 Naive Bayes ---R - 鈕甲跳 - 博客園
各種機(jī)器學(xué)習(xí)分類器模型分析與認(rèn)識(shí)_人工智能_qq_39989653的博客-CSDN博客
二、總結(jié)
參考:
決策樹款违、貝葉斯唐瀑、人工神經(jīng)網(wǎng)絡(luò)、K-近鄰插爹、支持向量機(jī)等常用分類算法小結(jié)_網(wǎng)絡(luò)_seu_yang的博客-CSDN博客
干貨|機(jī)器學(xué)習(xí)超全綜述(附多圖) - 簡(jiǎn)書
機(jī)器學(xué)習(xí)的分類與主要算法對(duì)比 - upstreamL - 博客園
機(jī)器學(xué)習(xí)文獻(xiàn)綜述_人工智能_a1742326479的博客-CSDN博客
分類哄辣、回歸、聚類赠尾、降維的區(qū)別_人工智能_kiss__soul的博客-CSDN博客
三力穗、基本概念辨析
人工智能:
機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論气嫁、統(tǒng)計(jì)學(xué)当窗、逼近論、凸分析寸宵、算法復(fù)雜度理論論等多門學(xué)科崖面。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為元咙,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能巫员。它是人工智能的核心庶香,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域和分支简识。一種經(jīng)常引用的英文定義是:A computer program is said to learn from experience E withrespect to some class of tasks T and performance measure P, if its performanceat tasks in T, as measured by P, improves with experience E赶掖。
深度學(xué)習(xí):深度學(xué)習(xí)算法是對(duì)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。
2. 根據(jù)有無人為標(biāo)簽分類
監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)是指利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程颈走,也稱為監(jiān)督訓(xùn)練或有教師學(xué)習(xí)呈驶。在監(jiān)督學(xué)習(xí)的過程中會(huì)提供對(duì)錯(cuò)指示,通過不斷地重復(fù)訓(xùn)練疫鹊,使其找到給定的訓(xùn)練數(shù)據(jù)集中的某種模式或規(guī)律袖瞻,當(dāng)新的數(shù)據(jù)到來時(shí),可以根據(jù)這個(gè)函數(shù)預(yù)測(cè)結(jié)果拆吆。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求包括輸入和輸出聋迎,主要應(yīng)用于分類和預(yù)測(cè)。常見的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計(jì)分類枣耀。
無監(jiān)督學(xué)習(xí):非監(jiān)督學(xué)習(xí)無須對(duì)數(shù)據(jù)集進(jìn)行標(biāo)記霉晕,即沒有輸出。其需要從數(shù)據(jù)集中發(fā)現(xiàn)隱含的某種結(jié)構(gòu)捞奕,從而獲得樣本數(shù)據(jù)的結(jié)構(gòu)特征牺堰,判斷哪些數(shù)據(jù)比較相似。因此颅围,非監(jiān)督學(xué)習(xí)目標(biāo)不是告訴計(jì)算機(jī)怎么做伟葫,而是讓它去學(xué)習(xí)怎樣做事情。無監(jiān)督學(xué)習(xí)的典型算法有自動(dòng)編碼器院促、受限玻爾茲曼機(jī)筏养、深度置信網(wǎng)絡(luò)等;典型應(yīng)用有:聚類和異常檢測(cè)等常拓。
半監(jiān)督學(xué)習(xí):半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的結(jié)合渐溶,其在訓(xùn)練階段使用的是未標(biāo)記的數(shù)據(jù)和已標(biāo)記的數(shù)據(jù),不僅要學(xué)習(xí)屬性之間的結(jié)構(gòu)關(guān)系弄抬,也要輸出分類模型進(jìn)行預(yù)測(cè)茎辐。與使用所有標(biāo)簽數(shù)據(jù)的模型相比,使用訓(xùn)練集的訓(xùn)練模型在訓(xùn)練時(shí)可以更為準(zhǔn)確,而且訓(xùn)練成本更低拖陆,在實(shí)際運(yùn)用中也更為普遍弛槐。
3. 偏差與方差
偏差:描述的是算法預(yù)測(cè)的平均值和真實(shí)值的差距(算法的擬合能力),低偏差對(duì)應(yīng)于模型復(fù)雜化慕蔚,但模型過于復(fù)雜容易過擬合;高偏差(一般是欠擬合斋配,注意跟上面低偏差時(shí)模型復(fù)雜化做區(qū)別)是模型在訓(xùn)練集和驗(yàn)證集上的誤差都比較大孔飒。
方差:描述的是同一個(gè)算法在不同數(shù)據(jù)集上的預(yù)測(cè)值和所有數(shù)據(jù)集上的平均預(yù)測(cè)值之間的關(guān)系(算法的穩(wěn)定性),低方差對(duì)應(yīng)于模型簡(jiǎn)單化艰争,但模型過于簡(jiǎn)單容易欠擬合坏瞄;高方差是針對(duì)不同的訓(xùn)練集,其擬合得到的參數(shù)相差很大(一般是過擬合甩卓,注意跟上面低方差時(shí)模型簡(jiǎn)單化做區(qū)別)鸠匀。
解決高偏差的方法:使用更多特征,增加多項(xiàng)式特征逾柿,減少正則化程度λ缀棍。
解決高偏差的方法:增加訓(xùn)練樣本,減少特征數(shù)量机错,增加正則化程度λ爬范。
4. 特征選擇:
特征選擇對(duì)機(jī)器學(xué)習(xí)至關(guān)重要,減少特征數(shù)量會(huì)防止維度災(zāi)難弱匪,減少訓(xùn)練時(shí)間青瀑;增強(qiáng)模型泛化能力,減少過擬合萧诫;增強(qiáng)對(duì)特征和特征值的理解斥难。個(gè)人認(rèn)為在大部分機(jī)器學(xué)習(xí)任務(wù)中特征就決定了效果的上限,模型的選擇與組合只是無限逼近于這個(gè)上限帘饶。????????
常見的特征選擇方法:①去除取值變化小的特征:如果絕大部分實(shí)例的某個(gè)特征取值一樣哑诊,那這個(gè)特征起到的作用可能就比較有限,極端情況下如果所有實(shí)例的某特征取值都一樣及刻,那該特征基本就不起作用搭儒。②單變量特征選擇法:能夠?qū)γ恳粋€(gè)特征進(jìn)行測(cè)試,衡量該特征和響應(yīng)變量之間的關(guān)系提茁,根據(jù)得分扔掉不好的特征淹禾。常見方法包括卡法檢驗(yàn)、互信息茴扁、皮爾森相關(guān)系數(shù)铃岔、距離相關(guān)系數(shù)、基于學(xué)習(xí)模型的特征排序(Model based ranking)等。③正則化:L1正則化毁习、L2正則化智嚷。④隨機(jī)森林特征選擇:這類方法主要包括平均不純度減少(mean decrease impurity)和平均精確率減少(Mean decrease accuracy)兩種方法。⑤頂層特征選擇法:這類方法主要包括穩(wěn)定性選擇(Stability selection)和遞歸特征消除(Recursive feature elimination)兩種方法纺且。
5. 損失函數(shù)
損失函數(shù)用來評(píng)價(jià)模型的預(yù)測(cè)值和真實(shí)值不一樣的程度盏道,損失函數(shù)越好,通常模型的性能越好载碌。不同的模型用的損失函數(shù)一般也不一樣猜嘱。損失函數(shù)分為經(jīng)驗(yàn)風(fēng)險(xiǎn)損失函數(shù)和結(jié)構(gòu)風(fēng)險(xiǎn)損失函數(shù)。經(jīng)驗(yàn)風(fēng)險(xiǎn)損失函數(shù)指預(yù)測(cè)結(jié)果和實(shí)際結(jié)果的差別嫁艇,結(jié)構(gòu)風(fēng)險(xiǎn)損失函數(shù)是指經(jīng)驗(yàn)風(fēng)險(xiǎn)損失函數(shù)加上正則項(xiàng)朗伶。
包括:0-1損失、絕對(duì)值損失步咪、log對(duì)數(shù)損失论皆、指數(shù)損失、Hinge損失等猾漫。
三点晴、醫(yī)學(xué)領(lǐng)域的應(yīng)用與研究進(jìn)展
參考:https://www.cnblogs.com/leezx/p/6229323.html](https://www.cnblogs.com/leezx/p/6229323.html
四、代碼入門
五悯周、特征選擇
1觉鼻、python:
https://blog.csdn.net/weixin_41988628/article/details/83059759
https://www.cnblogs.com/bonelee/p/8632866.html