兩大機(jī)器學(xué)習(xí)模式:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
? 有監(jiān)督學(xué)習(xí) :通過現(xiàn)有的數(shù)據(jù)(訓(xùn)練數(shù)據(jù)集)進(jìn)行建模洁段,再使用訓(xùn)練出來的模型對(duì)新的數(shù)據(jù)進(jìn)行分類或者回歸分析的學(xué)習(xí)方法刺下。? ?說人話:訓(xùn)練數(shù)據(jù)集一般包含樣本的特征變量?和?分類標(biāo)簽,在這個(gè)過程中使用不同的機(jī)器算法通過這些訓(xùn)練數(shù)據(jù)推斷出分類的方法并且運(yùn)用于新的樣本中郭脂,這就是整個(gè)監(jiān)督學(xué)習(xí)的過程年碘。
無監(jiān)督學(xué)習(xí):在沒有?訓(xùn)練數(shù)據(jù)集??的情況下,對(duì)沒有標(biāo)簽的數(shù)據(jù)進(jìn)行分析并建立合適的模型展鸡,從而給出問題解決方案的方法屿衅。?
無監(jiān)督學(xué)習(xí)中的常見基本概念:
?聚類和數(shù)據(jù)轉(zhuǎn)換
?在無監(jiān)督學(xué)習(xí)中,最常見的兩類任務(wù)類型是?數(shù)據(jù)轉(zhuǎn)換?和 聚類分析莹弊。
數(shù)據(jù)轉(zhuǎn)換:很多數(shù)據(jù)集原始的面目是十分復(fù)雜的(比如特征變量十分之多)涤久,若想從中提取有用的信息就需要先把這些復(fù)雜的數(shù)據(jù)通過無監(jiān)督學(xué)習(xí)的一些算法進(jìn)行轉(zhuǎn)換,使其變得容易理解箱硕。常見的數(shù)據(jù)轉(zhuǎn)換方法就是 數(shù)據(jù)降維拴竹,即通過對(duì)特征變量較多的數(shù)據(jù)集進(jìn)行分析,將無關(guān)緊要的特征變量進(jìn)行剔除剧罩,保留關(guān)鍵的特征變量∽荆【例如惠昔,將數(shù)據(jù)集的降至二維幕与,這樣就可以方便的進(jìn)行數(shù)據(jù)可視化處理≌蚍溃】
聚類:通過把樣本劃歸到不同的分組的算法啦鸣,每個(gè)分組中的元素都具有比較接近的特征。
有監(jiān)督學(xué)習(xí)中的常見基本概念:? ?
?回歸和分類?
“回歸和分類是有監(jiān)督學(xué)習(xí)中最常見的兩個(gè)方法来氧〗敫”?
分類:對(duì)于分類來講,機(jī)器學(xué)習(xí)的目標(biāo)是對(duì)樣本的標(biāo)簽進(jìn)行預(yù)測(cè)啦扬,判斷樣本屬于哪一個(gè)分類中狂,結(jié)果是離散的(離散:連續(xù)的反義詞就是離散 ,就是不連續(xù))扑毡。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 舉個(gè)小例子:某食品公司研發(fā)出了一款新的餅干胃榕,如果用算法模型來預(yù)測(cè)大眾對(duì)這個(gè)未上市的新產(chǎn)品的接受度時(shí),可以將之前的餅干分為“大家喜歡“和”大家不喜歡”瞄摊,這是屬于“二元分類”勋又。如果將之前的餅干產(chǎn)品分為“大家很喜歡”、“大家比較喜歡”换帜、“大家有點(diǎn)不喜歡”楔壤、“大家很不喜歡”四種類型,就屬于多元分類惯驼,這個(gè)結(jié)果就是離散的特征蹲嚣,需要用分類的方法來處理。
回歸:對(duì)于回歸來講跳座,機(jī)器學(xué)習(xí)的目標(biāo)是要預(yù)測(cè)一個(gè)連續(xù)的數(shù)值或者是范圍端铛。? ? ? ? ? ? ? ? ? ? ? ? ? ? 再來一個(gè)例子:將上面的例子稍微改一下,不分類疲眷,換成打分禾蚕。通過調(diào)查搜集用戶對(duì)此食品公司之前餅干產(chǎn)品的打分?jǐn)?shù)據(jù),將此?打分?jǐn)?shù)據(jù) 結(jié)合 餅干的特征?作為訓(xùn)練數(shù)據(jù)集狂丝,通過回歸建模换淆,就可以預(yù)測(cè)消費(fèi)者對(duì)這款產(chǎn)品未來上市時(shí)的評(píng)價(jià)了。
模型的泛化几颜、過擬合倍试、欠擬合
? ? ? ? 在有監(jiān)督學(xué)習(xí)中,使用訓(xùn)練數(shù)據(jù)集創(chuàng)建一個(gè)模型蛋哭,之后把這個(gè)模型用于新的之前從未用過見過的數(shù)據(jù)中县习,這個(gè)過程就成為泛化。直白點(diǎn)講,就是將訓(xùn)練出來的模型進(jìn)行實(shí)際應(yīng)用躁愿。
? ? ? “如何來評(píng)價(jià)一個(gè)模型的泛化準(zhǔn)確度叛本?”? ?---- 使用 試數(shù)據(jù)集 對(duì)模型的表現(xiàn)進(jìn)行評(píng)估。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?如果在訓(xùn)練數(shù)據(jù)集上使用了一個(gè)非常復(fù)雜的模型彤钟,以至于這個(gè)模型在擬合數(shù)據(jù)的時(shí)候表現(xiàn)非常好来候,但是在測(cè)試數(shù)據(jù)集的表現(xiàn)非常差,就說明模型發(fā)生了過擬合【overfitting】的問題逸雹。? ? ? 反之举畸,如果模型非常簡(jiǎn)單篱蝇,連訓(xùn)練數(shù)據(jù)集的特點(diǎn)都不能完全考慮到的話法绵,那么這個(gè)模型在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的得分都會(huì)非常差佩抹,這就說模型出現(xiàn)了欠擬合【underfitting】問題。