課程Wiki:Introduction
-
監(jiān)督學習(Supervised Learning)
在監(jiān)督學習中,給定一組數(shù)據(jù),我們知道正確的輸出結果應該是什么樣子短条,并且知道在輸入和輸出之間有著一個特定的關系涂圆。這么說可能理解起來不是很清晰宵统,沒關系蜒犯,后面有具體的例子絮供。
-
監(jiān)督學習的分類
監(jiān)督學習可分為“回歸”和“分類”問題子巾。
在回歸問題中帆赢,我們會預測一個連續(xù)值小压。也就是說我們試圖將輸入變量和輸出用一個連續(xù)函數(shù)對應起來;而在分類問題中椰于,我們會預測一個離散值怠益,我們試圖將輸入變量與離散的類別對應起來。
下面舉兩個例子瘾婿,就會非常清楚這幾個概念了蜻牢。
-
監(jiān)督學習舉例
-
回歸
通過房地產(chǎn)市場的數(shù)據(jù),預測一個給定面積的房屋的價格就是一個回歸問題偏陪。這里我們可以把價格看成是面積的函數(shù)抢呆,它是一個連續(xù)的輸出值。 但是竹挡,當把上面的問題改為“預測一個給定面積的房屋的價格是否比一個特定的價格高或者低”的時候镀娶,這就變成了一個分類問題, 因為此時的輸出是‘高’或者‘低’兩個離散的值。
-
分類
給定醫(yī)學數(shù)據(jù)揪罕,通過腫瘤的大小來預測該腫瘤是惡性瘤還是良性瘤(課程中給的是乳腺癌的例子)梯码,這就是一個分類問題,它的輸出是0或者1兩個離散的值好啰。(0代表良性轩娶,1代表惡性)。
分類問題的輸出可以多于兩個框往,比如在該例子中可以有{0,1,2,3}四種輸出鳄抒,分別對應{良性, 第一類腫瘤, 第二類腫瘤, 第三類腫瘤}。
下圖中上下兩個圖只是兩種畫法椰弊。第一個是有兩個軸许溅,Y軸表示是否是惡性瘤,X軸表示瘤的大小; 第二個是只用一個軸秉版,但是用了不同的標記贤重,用O表示良性瘤,X表示惡性瘤清焕。
在這個例子中特征只有一個并蝗,那就是瘤的大小。 有時候也有兩個或者多個特征, 例如下圖秸妥, 有“年齡”和“腫瘤大小”兩個特征滚停。(還可以有其他許多特征,如下圖右側所示)
-
無監(jiān)督學習
在無監(jiān)督學習中粥惧,我們基本上不知道結果會是什么樣子键畴,但我們可以通過聚類的方式從數(shù)據(jù)中提取一個特殊的結構。在無監(jiān)督學習中給定的數(shù)據(jù)是和監(jiān)督學習中給定的數(shù)據(jù)是不一樣的影晓。在無監(jiān)督學習中給定的數(shù)據(jù)沒有任何標簽或者說只有同一種標簽镰吵。如下圖所示:
如下圖所示檩禾,在無監(jiān)督學習中,我們只是給定了一組數(shù)據(jù)疤祭,我們的目標是發(fā)現(xiàn)這組數(shù)據(jù)中的特殊結構盼产。例如我們使用無監(jiān)督學習算法會將這組數(shù)據(jù)分成兩個不同的簇,,這樣的算法就叫聚類算法勺馆。
-
無監(jiān)督學習舉例
-
新聞分類
第一個例子舉的是Google News的例子戏售。Google News搜集網(wǎng)上的新聞,并且根據(jù)新聞的主題將新聞分成許多簇, 然后將在同一個簇的新聞放在一起草穆。如圖中紅圈部分都是關于BP Oil Well各種新聞的鏈接灌灾,當打開各個新聞鏈接的時候,展現(xiàn)的都是關于BP Oil Well的新聞悲柱。
-
根據(jù)給定基因將人群分類
如圖是DNA數(shù)據(jù)锋喜,對于一組不同的人我們測量他們DNA中對于一個特定基因的表達程度。然后根據(jù)測量結果可以用聚類算法將他們分成不同的類型豌鸡。這就是一種無監(jiān)督學習, 因為我們只是給定了一些數(shù)據(jù)嘿般,而并不知道哪些是第一種類型的人,哪些是第二種類型的人等等涯冠。
-
雞尾酒派對效應
詳見課程: [Unsupervised Learning](https://www.coursera.org/learn/machine-learning/lecture/olRZo/unsupervised-learning" target="_blank">Unsupervised Learning)
-
其他
這里又舉了其他幾個例子炉奴,有組織計算機集群,社交網(wǎng)絡分析蛇更,市場劃分瞻赶,天文數(shù)據(jù)分析等。具體可以看一下視頻:[Unsupervised Learning](https://www.coursera.org/learn/machine-learning/lecture/olRZo/unsupervised-learning" target="_blank">Unsupervised Learning)