監(jiān)督學習和無監(jiān)督學習
機器學習領域主要分兩個大類,分別是監(jiān)督學習和無監(jiān)督學習国旷,他倆最核心的區(qū)別在于數(shù)據(jù)有沒有標簽及汉。
假如監(jiān)督學習的樣本數(shù)據(jù)為D钢悲,則該D包含樣本的特征(用x表示)和標簽(用y表示)陶缺,監(jiān)督學習的樣本數(shù)據(jù)是既有特征又有標簽的钾挟,所以監(jiān)督學習的核心就是學習出x到y(tǒng)之間的映射關系,也稱x到y(tǒng)的函數(shù)组哩。
映射關系是選擇線性的映射關系還是非線性的映射關系取決于我們選擇的模型是線性的模型等龙,還是神經(jīng)網(wǎng)絡或svm或其他的非線性的模型处渣。
對無監(jiān)督學習其數(shù)據(jù)只有x沒有y伶贰,即沒有任何標簽,比如有一堆圖片但是并不知道這些圖片是什么類別罐栈,沒有標簽就學不到映射關系黍衙。那能做的就是尋找x的特征或規(guī)律,比如通過一個算法分析大量樣本內部的性質荠诬,根據(jù)性質把樣本分成幾大類等琅翻,每一個大類都有自己的共性。比如對用戶群體分類柑贞,制定個性化方案方椎。
通俗講,監(jiān)督學習中的樣本通常包含樣本特征和對該樣本的標簽钧嘶,目的就是使機器學習出樣本特征到標簽的映射關系棠众;無監(jiān)督學習的樣本只有數(shù)據(jù)特征沒有標簽,沒有標簽也就沒有映射關系有决,能做的就是尋找數(shù)據(jù)的特征和規(guī)律闸拿,算法過程不依賴于數(shù)據(jù)的標簽只能做一些分析和分類工作。其中最經(jīng)典的就是聚類分析书幕,也就是把類似的物體聚集在一起新荤。
在工業(yè)界應用主要還是以監(jiān)督學習為主,對于無監(jiān)督學習的實際場景主要還是以聚類分析為主(聚類分析就是無監(jiān)督學習中的經(jīng)典應用)台汇,其中最經(jīng)典的聚類算法叫做 K-means苛骨,也是一個極其簡單的算法篱瞎。 另外,聚類分析方法經(jīng)常用在營銷過程當中痒芝。
對于監(jiān)督學習擁有大量的例子奔缠,只要有標簽而且跟預測相關都可以歸類為監(jiān)督學習。
經(jīng)典算法
對于監(jiān)督學習和無監(jiān)督學習都有一些經(jīng)典的算法吼野,其中監(jiān)督學習的算法有:
線性回歸:回歸里最經(jīng)典且最簡單的算法校哎,可預測某個值;
邏輯回歸:其不是一個回歸算法主要解決分類問題瞳步,是建立在線性回歸之上的一個線性模型闷哆;
樸素貝葉斯:經(jīng)典簡單,適合文本分類場景单起;
決策樹:類似于樹狀結構抱怔,我們每天都在潛意識中使用該模型;
隨機森林:用多個決策樹一起做決策嘀倒,類似于同樣的問題給多個專家屈留,讓他們自己回答并整合他們的結論;
SVM:機器學習里最難的测蘑;
神經(jīng)網(wǎng)絡:是深度學習的基礎灌危。
無監(jiān)督學習算法有:
PCA:經(jīng)典降維算法,把一個高維的數(shù)據(jù)映射到低維空間里碳胳。降維的好處是可以降噪勇蝙,把沒用的信息去掉,可以把數(shù)據(jù)可視化挨约,在2維空間里沒辦法可視化的數(shù)據(jù)味混,可以降維到2維或3維空間里,通過肉眼的方式來觀察诫惭;
K-means:最經(jīng)典的聚類算法翁锡,在大量樣本發(fā)現(xiàn)類似點,然后把他們聚在一個類別里面夕土;
GMM:與k-means相關馆衔,可以看成是k-means的一個特例,區(qū)別是在于k-means里面一個物體只能屬于一個類別隘弊;
LDA:是一個主題的模型哈踱,經(jīng)常用在抽取主題特征的時候。
回歸和分類
任何機器學習算法都可以歸類為回歸和分類問題梨熙,主要區(qū)別在于這兩個輸出不一樣开镣,區(qū)分這兩者的關鍵在于區(qū)分預測值是什么形式。
回歸問題就是用來預測某一個具體的數(shù)值咽扇,其輸出的是連續(xù)性數(shù)值邪财,比如溫度陕壹、身高、氣溫等树埠;分類問題則預測某一個具體的類別并定性輸出糠馆,類別沒有大小關系,比如陰或晴怎憋、好或壞又碌、圖像分類等。
數(shù)據(jù)的特征绊袋,樣本和標簽
描述物體的具體屬性和信息叫特征毕匀,如對鳥分類數(shù)據(jù)的翅膀顏色、大小癌别、爪子形狀皂岔、飛行高度等都稱為特征;
標簽是數(shù)據(jù)的預測值展姐,如根據(jù)不同的特征可以分為鴿子躁垛、大雁、喜鵲等預測值圾笨;
每一條具體的物體特征和標簽可組成一行教馆,每行是一個樣本。
訓練數(shù)據(jù)和測試數(shù)據(jù)
在機器學習模型中墅拭,用來訓練模型的數(shù)據(jù)叫訓練數(shù)據(jù)活玲;對訓練出來的模型進行評估的數(shù)據(jù)叫測試數(shù)據(jù);通常會把原始數(shù)據(jù)分成兩份谍婉,一份用來訓練一份用來評估。