機(jī)器學(xué)習(xí)基礎(chǔ)
過擬合和欠擬合
- 機(jī)器學(xué)習(xí)的根本問題是optimization和generalization之間的對立,所謂optimization躯嫉,即在訓(xùn)練數(shù)據(jù)上獲得最佳性能,所謂generalization庇配,即模型在未見的數(shù)據(jù)集上的性能越锈。
- 欠擬合:訓(xùn)練數(shù)據(jù)上損失越小,測試數(shù)據(jù)上的損失也越小可训,此時(shí)模型欠擬合
- 過擬合:即在訓(xùn)練數(shù)據(jù)上迭代一定次數(shù)之后昌妹,generalization不在提高,模型開始學(xué)習(xí)僅和訓(xùn)練數(shù)據(jù)有關(guān)的模式握截,此時(shí)開始過擬合
- 防止模型過擬合的方法
- 獲取更多的訓(xùn)練數(shù)據(jù)捺宗,也是最優(yōu)的方法
- 減小網(wǎng)絡(luò)大小
即減小模型中科學(xué)系的參數(shù)(由層數(shù)和每層單元數(shù)決定), 迫使模型只學(xué)習(xí)記憶具有很強(qiáng)預(yù)測能力的壓縮表示,但也主要避免因網(wǎng)絡(luò)過小造成的欠擬合川蒙,具體實(shí)施則可以先使用較少的層和參數(shù),然后逐漸增加層的大小或新層长已,直到在驗(yàn)證數(shù)據(jù)集上損失變得很小
- 添加權(quán)重正則化
通常簡單模型比復(fù)雜模型更不容易過擬合畜眨,因此可以強(qiáng)制讓魔心權(quán)重只能取最小的值,從而限制模型復(fù)雜度.
具體實(shí)現(xiàn)就是想網(wǎng)絡(luò)損失函數(shù)中添加較大權(quán)重值的成本术瓮,有兩種形式L1正則化和L2正則化康聂,即成本分別于權(quán)重系數(shù)的絕對值和平方成正比。- Dropout正則化
即訓(xùn)練過程中胞四,隨機(jī)將該層的一些輸出特征舍棄恬汁。
機(jī)器學(xué)習(xí)通用工作流程
- 定義問題,收集數(shù)據(jù)集
- 衡量指標(biāo)選擇
- 衡量成功的指標(biāo)選擇合適的損失函數(shù)
- 平衡分類問題辜伟,精度和AUC是常用的指標(biāo)
- 不平橫分類問題氓侧,precision和recall是合適的指標(biāo)
- 排序和多標(biāo)簽分類脊另,mean average precision是合適的指標(biāo)
- 確定評估方法
- hang-out validation: 即流出部分?jǐn)?shù)據(jù)作為驗(yàn)證數(shù)據(jù)
- k-fold validation
- Iterated k-fold validation with shuffling :具體操作就是使用多次(P) K-fold validation,只是每次劃分前都將數(shù)據(jù)隨機(jī)打亂约巷,需訓(xùn)練P x K個(gè)模型
- 準(zhǔn)備數(shù)據(jù)
- 數(shù)據(jù)格式化為張量
- 張量的取值應(yīng)該縮放為較小的值偎痛,如min-max normalization
- 異質(zhì)數(shù)據(jù)要進(jìn)行數(shù)據(jù)的Standardizate
- 考慮特征工程
- 模型開發(fā)
- 參數(shù)選擇
問題 最后一層激活 損失函數(shù) 二分類問題 sigmoid binary_crossentropy 多分類、單標(biāo)簽 sofmax categorical_crossentropy 多分類独郎、多標(biāo)簽 sigmoid binary_crossentropy 回歸 不需 mse 0-1 回歸 sigmoid mse/binary_crossentropy
- 過擬合模型
- 添加更多的層
- 每一層更大
- 訓(xùn)練更多輪次
以找到欠擬合和過擬合的分界線
- 正則化踩麦、調(diào)解超參數(shù)
- dropout
- 增加或減少參數(shù)
- L1或和L2正則化
- 嘗試不同的超參數(shù)
- 特征工程
確定模型的參數(shù)之后,就可以在所有可用數(shù)據(jù)上(訓(xùn)練數(shù)據(jù) + 驗(yàn)證數(shù)據(jù))上訓(xùn)練最終的模型