- 在討論如何調(diào)試模型之前俘侠,我們先來糾正一個誤區(qū)象缀。
- 通常理解如何調(diào)試模型的時候,我們想到一系列優(yōu)秀的神經(jīng)網(wǎng)絡(luò)模型以及調(diào)試技巧爷速。
- 但這里需要指出的是數(shù)據(jù)才是模型的根本央星,如果有一批質(zhì)量優(yōu)秀的數(shù)據(jù),或者說你能將數(shù)據(jù)質(zhì)量處理的很好的時候惫东,往往比挑選或者設(shè)計模型的收益來的更大莉给。
- 那在這之后才是模型的設(shè)計和挑選以及訓練技巧上的事情。
- 探索和清洗數(shù)據(jù)
- 探索數(shù)據(jù)集是設(shè)計算法之前最為重要的一步廉沮,以圖像分類為例颓遏,我們需要重點知道給定的數(shù)據(jù)集樣本類別和各類別樣本數(shù)量是否平衡,圖像之間是否存在跨域問題(例如網(wǎng)上爬取的圖像通常質(zhì)量各異滞时,存在噪聲)叁幢。
- 若是類別數(shù)遠遠超過類別樣本數(shù)(比如類別10000,每個類別卻只有10張圖像)坪稽,那通常的方法可能效果并不顯著曼玩,這時候few-shot learning或者對數(shù)據(jù)集做進一步增強可能是你比較不錯的選擇。
- 再如目標檢測窒百,待檢測目標在數(shù)據(jù)集中的尺度范圍是對檢測器的性能有很大影響的部分黍判。因此重點是檢測大目標還是小目標、目標是否密集完全取決于數(shù)據(jù)集本身贝咙。
- 所以样悟,探索和進一步清洗數(shù)據(jù)集一直都是深度學習中最重要的一步。這是很多新手通常會忽略的一點庭猩。
- 探索模型結(jié)果窟她。
- 探索模型的結(jié)果,通常是需要對模型在驗證集上的性能進行進一步的分析蔼水,這是如何進一步提升模型性能很重要的步驟震糖。
- 將模型在訓練集和驗證集都進行結(jié)果的驗證和可視化,可直觀的分析出模型是否存在較大偏差以及結(jié)果的正確性趴腋。
- 以圖像分類為例吊说,若類別間樣本數(shù)量很不平衡時,我們需要重點關(guān)注少樣本類別在驗證集的結(jié)果是否和訓練集的出入較大优炬,對出錯類別可進一步進行模型數(shù)值分析以及可視化結(jié)果分析颁井,進一步確認模型的行為。
- 監(jiān)控訓練和驗證誤差蠢护。
- 首先很多情況下雅宾,我們忽略代碼的規(guī)范性和算法撰寫正確性驗證,這點上容易產(chǎn)生致命的影響葵硕。
- 在訓練和驗證都存在問題時眉抬,首先請確認自己的代碼是否正確贯吓。
- 其次,根據(jù)訓練和驗證誤差進一步追蹤模型的擬合狀態(tài)蜀变。
- 若訓練數(shù)據(jù)集很小悄谐,此時監(jiān)控誤差則顯得格外重要。
- 確定了模型的擬合狀態(tài)對進一步調(diào)整學習率的策略的選擇或者其他有效超參數(shù)的選擇則會更得心應手库北。
- 反向傳播數(shù)值的計算爬舰,這種情況通常適合自己設(shè)計一個新操作的情況。
- 目前大部分流行框架都已包含自動求導部分贤惯,但并不一定是完全符合你的要求的洼专。
- 驗證求導是否正確的方式是比較自動求導的結(jié)果和有限差分計算結(jié)果是否一致。
-
所謂有限差分即導數(shù)的定義孵构,使用一個極小的值近似導數(shù)。
大數(shù)據(jù)視頻推薦:
網(wǎng)易云課堂
CSDN
人工智能算法競賽實戰(zhàn)
AIops智能運維機器學習算法實戰(zhàn)
ELK7 stack開發(fā)運維實戰(zhàn)
PySpark機器學習從入門到精通
AIOps智能運維實戰(zhàn)
騰訊課堂
大數(shù)據(jù)語音推薦:
ELK7 stack開發(fā)運維
企業(yè)級大數(shù)據(jù)技術(shù)應用
大數(shù)據(jù)機器學習案例之推薦系統(tǒng)
自然語言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學習入門到精通