《Python Machine Learning》
做這個筆記卷中,是為了讓自己有個良好的記錄習慣脖苏。
不然每次看了方灾,都會忘記到底看到哪里呢塘秦?
并且中間產(chǎn)生的一些思考問題讼渊,可能過一會兒也就忘了。
其次嗤形,對于我這種數(shù)學基礎這么垃圾的人來說精偿,每次推公式,感覺很hard赋兵。那到底該如何徹底了解其原理呢笔咽,難道只能通過自己推公式去了解嗎,盲目搜羅網(wǎng)上博客了解霹期?
感覺ineffective叶组。
總結(jié)也許是個好方法吧。
先來一個machine learning的roadmap吧:
圖1 roadmao
Preprocessing data
1:直接將數(shù)據(jù)轉(zhuǎn)化到[0,1]之間
2:0-1標準化
3:high correlated data需要降維
No Free Lunch Theorems
”天下沒有免費的午餐理論“聞名于世历造,每個算法各有優(yōu)缺點甩十,若想得到好的結(jié)果總會有各種犧牲。
因此吭产,在訓練和選擇模型方面侣监,需要多次嘗試不同的算法去驗證,尋找最佳模型臣淤。
在選擇之前橄霉,我們需要找到合適的metric performance,在小貸行業(yè)中通常選擇Auc或者Ks值。
Perceptron(感知機)
以前看到感知機都是自覺跳過邑蒋,因為幾乎沒見誰用過姓蜂。做圖像的時候沒人用,現(xiàn)在做純數(shù)據(jù)也沒啥人用医吊。在我的認知里钱慢,它畢竟還是機器學習內(nèi)的小祖先。所以為了表達尊重卿堂,還是學習學習束莫。
機器學習領域中幾乎所有的算法公式核心是由損失函數(shù)和正則項組合。感知機模型也不例外草描,利用誤差項作為損失函數(shù)览绿,接著利用標準梯度函數(shù)或者隨機梯度函數(shù)求解最優(yōu)值。
(思考:哪一種情況考慮標準梯度或者隨機梯度)