<b>摘要</b>: 機器學習 機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統(tǒng)計學棒呛、逼近論、凸分析域携、算法復雜度理論等多門學科簇秒。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能秀鞭,重新組織已有的知識結(jié)構使之不斷改善自身的性能趋观。
機器學習
<b>機器學習</b>(Machine Learning, ML)是一門多領域交叉學科,涉及概率論锋边、統(tǒng)計學皱坛、逼近論、凸分析豆巨、算法復雜度理論等多門學科剩辟。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構使之不斷改善自身的性能贩猎。
<b>嚴格的定義</b>:機器學習是一門研究機器獲取新知識和新技能熊户,并識別現(xiàn)有知識的學問。這里所說的“機器”吭服,指的就是計算機敏弃,電子計算機,中子計算機噪馏、光子計算機或神經(jīng)計算機等等麦到。
機器學習概論
由上圖所示:機器學習分為四大塊: <b>classification (分類), clustering (聚類), regression (回歸), dimensionality reduction (降維)欠肾。</b>
<b>classification & regression</b>
舉一個簡單的例子:
給定一個樣本特征 x, 我們希望預測其對應的屬性值 y, 如果 y 是離散的, 那么這就是一個分類問題瓶颠,反之,如果 y 是連續(xù)的實數(shù), 這就是一個回歸問題刺桃。
如果給定一組樣本特征 S={x∈RD}, 我們沒有對應的 y, 而是想發(fā)掘這組樣本在 D 維空間的分布, 比如分析哪些樣本靠的更近粹淋,哪些樣本之間離得很遠, 這就是屬于聚類問題。
如果我們想用維數(shù)更低的子空間來表示原來高維的特征空間, 那么這就是降維問題瑟慈。
無論是分類還是回歸桃移,都是想建立一個預測模型 H,給定一個輸入 x, 可以得到一個輸出 y:
y=H(x)
不同的只是在分類問題中, y 是離散的; 而在回歸問題中 y 是連續(xù)的葛碧。所以總得來說借杰,兩種問題的學習算法都很類似。所以在這個圖譜上进泼,我們看到在分類問題中用到的學習算法蔗衡,在回歸問題中也能使用。分類問題最常用的學習算法包括 SVM (支持向量機) , SGD (隨機梯度下降算法), Bayes (貝葉斯估計), Ensemble, KNN 等乳绕。而回歸問題也能使用 SVR, SGD, Ensemble 等算法绞惦,以及其它線性回歸算法。
<b>clustering</b>
聚類也是分析樣本的屬性, 有點類似classification, 不同的就是classification 在預測之前是知道 y 的范圍, 或者說知道到底有幾個類別, 而聚類是不知道屬性的范圍的洋措。所以 classification 也常常被稱為 supervised learning, 而clustering就被稱為 unsupervised learning济蝉。
clustering 事先不知道樣本的屬性范圍,只能憑借樣本在特征空間的分布來分析樣本的屬性菠发。這種問題一般更復雜王滤。而常用的算法包括 k-means (K-均值), GMM (高斯混合模型) 等。
<b>dimensionality reduction</b>
降維是機器學習另一個重要的領域, 降維有很多重要的應用, 特征的維數(shù)過高, 會增加訓練的負擔與存儲空間, 降維就是希望去除特征的冗余, 用更加少的維數(shù)來表示特征. 降維算法最基礎的就是PCA了, 后面的很多算法都是以PCA為基礎演化而來雷酪。