阿里機器學習面試的一些題目眨唬,
1.說一下KNN的過程(剛開始的時候和k-means搞混了。。。)
KNN是k nearest neighbor 的簡稱彪标,即k最鄰近,就是找k個最近的實例投票決定新實例的類標侵歇。KNN是一種基于實例的學習算法碍彭,它不同于貝葉斯、決策樹等算法摸袁,KNN不需要訓練钥顽,當有新的實例出現(xiàn)時,直接在訓練數(shù)據(jù)集中找k個最近的實例靠汁,把這個新的實例分配給這k個訓練實例中實例數(shù)最多類蜂大。KNN也稱為懶惰學習,它不需要訓練過程蝶怔,在類標邊界比較整齊的情況下分類的準確率很高奶浦。KNN算法需要人為決定K的取值,即找?guī)讉€最近的實例踢星,k值不同澳叉,分類結果的結果也會不同。
2. ID3 C4.5 CART根據(jù)什么選擇特征
ID3根據(jù)信息增益選擇特征。C4.5根據(jù)信息增益率耳高。CART根據(jù)基尼指數(shù)
參考鏈接:決策樹(ID3扎瓶、C4.5、CART)
3. 樸素貝葉斯的假設是什么泌枪?
所有樸素貝葉斯分類器都假定樣本每個特征與其他特征都不相關概荷。
4. 如果某個特征在訓練集出現(xiàn),測試集沒出現(xiàn)沒出現(xiàn)碌燕,概率計算出來是0误证,怎么解決?
某特征在訓練集中未出現(xiàn)修壕,避免概率計算為0愈捅,引入laplace平滑方法
5. SVM軟間隔目標函數(shù),及對偶函數(shù)的形式
當數(shù)據(jù)近似線性可分時慈鸠,通過軟間隔最大化學習一個線性分類器蓝谨,即線性支持向量機;當數(shù)據(jù)線性不可分時青团,通過核技巧及軟間隔最大化學習非線性支持向量機譬巫。
目標函數(shù)變?yōu)椋?/p>
其中C稱為懲罰參數(shù),且C>0督笆。在線性支持向量機中加入了懲罰項芦昔。
利用拉格朗日函數(shù)的對偶性,將問題變成一個極大極小優(yōu)化問題:
了解更多:SVM
6. 神經(jīng)網(wǎng)絡的誤差傳播的原理
7.梯度提升樹