前言
雖然現(xiàn)在都在搞深度學習帮碰,但是總覺得之前機器學習的很多基礎算法并沒有掌握好相味,于是專門搜了李宏毅老師的機器學習課程(我的是官網(wǎng)的課程,是在YouTube上看的殉挽,沒法上YouTube的話丰涉,b站上也有一樣的視頻拓巧,老師19年又新增了一些課程,而且還沒更新完一死,附上課程ppt)肛度,打算每周看一些,算是溫故而知新吧投慈,而且說不定會給我現(xiàn)在的課題帶來些靈感贤斜。
第一課——Regression
老師用寶可夢作為例子,用進化前的CP值和進化后的CP值做一個回歸模型逛裤,真的是太生動有趣了,先用最原始一次方程來擬合猴抹,然后逐漸用高次方程带族,還提出了評判模型好壞的方法——損失函數(shù),這兩個我都理解,但引起我注意的是跋理,老師說
除了上面還有一個盲區(qū)就是骡湖,
找到了一篇很好的正則化說明[2],里面說的很詳細惠桃。
第二課——Gradient Descent
這節(jié)課老師主要講了三個內(nèi)容
- Adaptive Learning Rate
- Stochastic Gradient Descent
-
Feature Scaling
雖然每一個我都聽過浦夷,但每一個我都不熟悉,除了第二個還可以辜王,所以下周應該會把第一和第三個了解清楚劈狐,有機會在程序中使用一下。
第三課——ML Lecture 2: Where does the error come from?
昨晚又看完了第三課呐馆,想著趕快整理一下懈息,不然又忘了。其實我沒有做很多筆記摹恰,而且老師講的很多都是例子辫继,所以我只挑了重點記錄怒见。
錯誤主要主要表現(xiàn)在兩個指標上——偏差和方差。
知道這兩個指標是為了評定模型是否擬合良好纪隙,
當模型擬合能力特別特別強(過擬合)時麸锉,模型可以根據(jù)自己訓練數(shù)據(jù)給出幾乎正確的預測值(訓練集上低偏差),但這樣就好了嗎舆声?并不是花沉,因為當你用測試數(shù)據(jù)去驗證模型的時候,就會發(fā)現(xiàn)預測值還是和真實值相去甚遠(測試集上高偏差)媳握。所以說我之前的觀念(劃刪除線的地方)是錯的主穗,看這篇文章就清楚了。
這里有篇論文毙芜,等我再遇到偏差方差問題時看看忽媒。
訓練集、驗證集和測試集
以前我也知道有這三個數(shù)據(jù)集腋粥,但是不明白為什么非要分出驗證集晦雨,現(xiàn)在大概懂了。如果只有訓練集和測試集隘冲,我們用訓練集來訓練模型闹瞧,用測試集來調(diào)整模型,那對于訓練集和測試集之外的數(shù)據(jù)展辞,也就是完全沒見過的數(shù)據(jù)奥邮,模型可能并不會表現(xiàn)得很好。所以我們從訓練集中分出一個驗證集(驗證集不參與模型的訓練),然后用訓練集訓練模型洽腺,用驗證集來微調(diào)模型脚粟,用測試集來測試模型,結(jié)果反映的就是模型在未見過的樣本上的性能了蘸朋。但是很難控制自己不根據(jù)測試集再來調(diào)整模型核无,如果又根據(jù)測試集調(diào)整了,那就和沒分驗證集一樣了藕坯。
第十二課————ML Lecture 12: Semi-supervised
)
這節(jié)課講了半監(jiān)督团南,而且半監(jiān)督在NLP中貌似還用的挺多的,視頻中講了幾個方法:
- self-training炼彪,附幾篇講解吐根,還沒有深入為什么self-training會work
- Low-density Separation
- Entropy-based Regularization
- Semi-supervised SVM
- Smoothness Assumption
- Graph-based Approach
Adversarial Learning(忘了多少課了)
新增課程
Anomaly Detection(異常檢測)
將數(shù)據(jù)分為正常值和異常值,用正常值的訓練集來訓練一個模型辐马,模型的輸出就是分類的概率拷橘。給模型一個新的輸入,若輸出值大于某個閾值齐疙,則屬于正常值,反之旭咽,屬于異常值贞奋。
檢測異常值的方法:
- 普通的神經(jīng)網(wǎng)絡
- 最大似然估計:通過已經(jīng)觀測到的數(shù)據(jù),來推斷什么樣的參數(shù)使得產(chǎn)生這些數(shù)據(jù)的可能性最大穷绵,求得模型的參數(shù)
- 自編碼器:訓練一個自編碼器轿塔,使得輸入和輸出一模一樣,這樣的話仲墨,給該模型輸入后勾缭,得到輸出,比較輸入和輸出的相似性目养,若是正常值俩由,會盡可能的像,若是異常值癌蚁,則可能不像幻梯。
參考資料
[1] 線性回歸
[2] 機器學習中正則化項L1和L2的直觀理解
[3] 偏差(Bias)與方差(Variance)
[4] 機器學習泛化問題之偏差和方差
[5] Understanding the Bias-Variance Tradeoff