機器學習-3:機器學習的基礎概念

監(jiān)督學習和無監(jiān)督學習

機器學習領域主要分兩個大類,分別是監(jiān)督學習和無監(jiān)督學習国旷,他倆最核心的區(qū)別在于數(shù)據(jù)有沒有標簽及汉。

假如監(jiān)督學習的樣本數(shù)據(jù)為D钢悲,則該D包含樣本的特征(用x表示)和標簽(用y表示)陶缺,監(jiān)督學習的樣本數(shù)據(jù)是既有特征又有標簽的钾挟,所以監(jiān)督學習的核心就是學習出x到y(tǒng)之間的映射關系,也稱x到y(tǒng)的函數(shù)组哩。
映射關系是選擇線性的映射關系還是非線性的映射關系取決于我們選擇的模型是線性的模型等龙,還是神經(jīng)網(wǎng)絡或svm或其他的非線性的模型处渣。
對無監(jiān)督學習其數(shù)據(jù)只有x沒有y伶贰,即沒有任何標簽,比如有一堆圖片但是并不知道這些圖片是什么類別罐栈,沒有標簽就學不到映射關系黍衙。那能做的就是尋找x的特征或規(guī)律,比如通過一個算法分析大量樣本內部的性質荠诬,根據(jù)性質把樣本分成幾大類等琅翻,每一個大類都有自己的共性。比如對用戶群體分類柑贞,制定個性化方案方椎。

通俗講,監(jiān)督學習中的樣本通常包含樣本特征和對該樣本的標簽钧嘶,目的就是使機器學習出樣本特征到標簽的映射關系棠众;無監(jiān)督學習的樣本只有數(shù)據(jù)特征沒有標簽,沒有標簽也就沒有映射關系有决,能做的就是尋找數(shù)據(jù)的特征和規(guī)律闸拿,算法過程不依賴于數(shù)據(jù)的標簽只能做一些分析和分類工作。其中最經(jīng)典的就是聚類分析书幕,也就是把類似的物體聚集在一起新荤。

在工業(yè)界應用主要還是以監(jiān)督學習為主,對于無監(jiān)督學習的實際場景主要還是以聚類分析為主(聚類分析就是無監(jiān)督學習中的經(jīng)典應用)台汇,其中最經(jīng)典的聚類算法叫做 K-means苛骨,也是一個極其簡單的算法篱瞎。 另外,聚類分析方法經(jīng)常用在營銷過程當中痒芝。
對于監(jiān)督學習擁有大量的例子奔缠,只要有標簽而且跟預測相關都可以歸類為監(jiān)督學習。

經(jīng)典算法

對于監(jiān)督學習和無監(jiān)督學習都有一些經(jīng)典的算法吼野,其中監(jiān)督學習的算法有:
線性回歸:回歸里最經(jīng)典且最簡單的算法校哎,可預測某個值;
邏輯回歸:其不是一個回歸算法主要解決分類問題瞳步,是建立在線性回歸之上的一個線性模型闷哆;
樸素貝葉斯:經(jīng)典簡單,適合文本分類場景单起;
決策樹:類似于樹狀結構抱怔,我們每天都在潛意識中使用該模型;
隨機森林:用多個決策樹一起做決策嘀倒,類似于同樣的問題給多個專家屈留,讓他們自己回答并整合他們的結論;
SVM:機器學習里最難的测蘑;
神經(jīng)網(wǎng)絡:是深度學習的基礎灌危。

無監(jiān)督學習算法有:
PCA:經(jīng)典降維算法,把一個高維的數(shù)據(jù)映射到低維空間里碳胳。降維的好處是可以降噪勇蝙,把沒用的信息去掉,可以把數(shù)據(jù)可視化挨约,在2維空間里沒辦法可視化的數(shù)據(jù)味混,可以降維到2維或3維空間里,通過肉眼的方式來觀察诫惭;
K-means:最經(jīng)典的聚類算法翁锡,在大量樣本發(fā)現(xiàn)類似點,然后把他們聚在一個類別里面夕土;
GMM:與k-means相關馆衔,可以看成是k-means的一個特例,區(qū)別是在于k-means里面一個物體只能屬于一個類別隘弊;
LDA:是一個主題的模型哈踱,經(jīng)常用在抽取主題特征的時候。

回歸和分類

任何機器學習算法都可以歸類為回歸和分類問題梨熙,主要區(qū)別在于這兩個輸出不一樣开镣,區(qū)分這兩者的關鍵在于區(qū)分預測值是什么形式。
回歸問題就是用來預測某一個具體的數(shù)值咽扇,其輸出的是連續(xù)性數(shù)值邪财,比如溫度陕壹、身高、氣溫等树埠;分類問題則預測某一個具體的類別并定性輸出糠馆,類別沒有大小關系,比如陰或晴怎憋、好或壞又碌、圖像分類等。

數(shù)據(jù)的特征绊袋,樣本和標簽

描述物體的具體屬性和信息叫特征毕匀,如對鳥分類數(shù)據(jù)的翅膀顏色、大小癌别、爪子形狀皂岔、飛行高度等都稱為特征;
標簽是數(shù)據(jù)的預測值展姐,如根據(jù)不同的特征可以分為鴿子躁垛、大雁、喜鵲等預測值圾笨;
每一條具體的物體特征和標簽可組成一行教馆,每行是一個樣本。

訓練數(shù)據(jù)和測試數(shù)據(jù)

在機器學習模型中墅拭,用來訓練模型的數(shù)據(jù)叫訓練數(shù)據(jù)活玲;對訓練出來的模型進行評估的數(shù)據(jù)叫測試數(shù)據(jù);通常會把原始數(shù)據(jù)分成兩份谍婉,一份用來訓練一份用來評估。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末镀钓,一起剝皮案震驚了整個濱河市穗熬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌丁溅,老刑警劉巖唤蔗,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異窟赏,居然都是意外死亡妓柜,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門涯穷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來棍掐,“玉大人,你說我怎么就攤上這事拷况∽骰停” “怎么了掘殴?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長粟誓。 經(jīng)常有香客問我奏寨,道長,這世上最難降的妖魔是什么鹰服? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任病瞳,我火速辦了婚禮,結果婚禮上悲酷,老公的妹妹穿的比我還像新娘仍源。我一直安慰自己,他們只是感情好舔涎,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布笼踩。 她就那樣靜靜地躺著,像睡著了一般亡嫌。 火紅的嫁衣襯著肌膚如雪嚎于。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天挟冠,我揣著相機與錄音于购,去河邊找鬼。 笑死知染,一個胖子當著我的面吹牛肋僧,可吹牛的內容都是我干的。 我是一名探鬼主播控淡,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼嫌吠,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了掺炭?” 一聲冷哼從身側響起辫诅,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎涧狮,沒想到半個月后炕矮,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡者冤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年肤视,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涉枫。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡邢滑,死狀恐怖,靈堂內的尸體忽然破棺而出拜银,到底是詐尸還是另有隱情殊鞭,我是刑警寧澤遭垛,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站操灿,受9級特大地震影響锯仪,放射性物質發(fā)生泄漏。R本人自食惡果不足惜趾盐,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一庶喜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧救鲤,春花似錦久窟、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至丹锹,卻和暖如春稀颁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背楣黍。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工匾灶, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人租漂。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓阶女,卻偏偏與公主長得像,于是被迫代替她去往敵國和親哩治。 傳聞我的和親對象是個殘疾皇子秃踩,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內容