學(xué)習(xí)筆記:Python深度學(xué)習(xí)

機(jī)器學(xué)習(xí)基礎(chǔ)

過擬合和欠擬合

  • 機(jī)器學(xué)習(xí)的根本問題是optimization和generalization之間的對立,所謂optimization躯嫉,即在訓(xùn)練數(shù)據(jù)上獲得最佳性能,所謂generalization庇配,即模型在未見的數(shù)據(jù)集上的性能越锈。
  • 欠擬合:訓(xùn)練數(shù)據(jù)上損失越小,測試數(shù)據(jù)上的損失也越小可训,此時(shí)模型欠擬合
  • 過擬合:即在訓(xùn)練數(shù)據(jù)上迭代一定次數(shù)之后昌妹,generalization不在提高,模型開始學(xué)習(xí)僅和訓(xùn)練數(shù)據(jù)有關(guān)的模式握截,此時(shí)開始過擬合
  • 防止模型過擬合的方法
    1. 獲取更多的訓(xùn)練數(shù)據(jù)捺宗,也是最優(yōu)的方法
    2. 減小網(wǎng)絡(luò)大小

    即減小模型中科學(xué)系的參數(shù)(由層數(shù)和每層單元數(shù)決定), 迫使模型只學(xué)習(xí)記憶具有很強(qiáng)預(yù)測能力的壓縮表示,但也主要避免因網(wǎng)絡(luò)過小造成的欠擬合川蒙,具體實(shí)施則可以先使用較少的層和參數(shù),然后逐漸增加層的大小或新層长已,直到在驗(yàn)證數(shù)據(jù)集上損失變得很小

    1. 添加權(quán)重正則化

    通常簡單模型比復(fù)雜模型更不容易過擬合畜眨,因此可以強(qiáng)制讓魔心權(quán)重只能取最小的值,從而限制模型復(fù)雜度.
    具體實(shí)現(xiàn)就是想網(wǎng)絡(luò)損失函數(shù)中添加較大權(quán)重值的成本术瓮,有兩種形式L1正則化L2正則化康聂,即成本分別于權(quán)重系數(shù)的絕對值和平方成正比。

    1. Dropout正則化

    即訓(xùn)練過程中胞四,隨機(jī)將該層的一些輸出特征舍棄恬汁。

機(jī)器學(xué)習(xí)通用工作流程

  1. 定義問題,收集數(shù)據(jù)集
  2. 衡量指標(biāo)選擇
  • 衡量成功的指標(biāo)選擇合適的損失函數(shù)
    • 平衡分類問題辜伟,精度和AUC是常用的指標(biāo)
    • 不平橫分類問題氓侧,precision和recall是合適的指標(biāo)
    • 排序和多標(biāo)簽分類脊另,mean average precision是合適的指標(biāo)
  1. 確定評估方法
  • hang-out validation: 即流出部分?jǐn)?shù)據(jù)作為驗(yàn)證數(shù)據(jù)
  • k-fold validation
  • Iterated k-fold validation with shuffling :具體操作就是使用多次(P) K-fold validation,只是每次劃分前都將數(shù)據(jù)隨機(jī)打亂约巷,需訓(xùn)練P x K個(gè)模型
  1. 準(zhǔn)備數(shù)據(jù)
  • 數(shù)據(jù)格式化為張量
  • 張量的取值應(yīng)該縮放為較小的值偎痛,如min-max normalization
  • 異質(zhì)數(shù)據(jù)要進(jìn)行數(shù)據(jù)的Standardizate
  • 考慮特征工程
  1. 模型開發(fā)
  • 參數(shù)選擇
    問題 最后一層激活 損失函數(shù)
    二分類問題 sigmoid binary_crossentropy
    多分類、單標(biāo)簽 sofmax categorical_crossentropy
    多分類独郎、多標(biāo)簽 sigmoid binary_crossentropy
    回歸 不需 mse
    0-1 回歸 sigmoid mse/binary_crossentropy
  1. 過擬合模型
  • 添加更多的層
  • 每一層更大
  • 訓(xùn)練更多輪次

以找到欠擬合和過擬合的分界線

  1. 正則化踩麦、調(diào)解超參數(shù)
  • dropout
  • 增加或減少參數(shù)
  • L1或和L2正則化
  • 嘗試不同的超參數(shù)
  • 特征工程

確定模型的參數(shù)之后,就可以在所有可用數(shù)據(jù)上(訓(xùn)練數(shù)據(jù) + 驗(yàn)證數(shù)據(jù))上訓(xùn)練最終的模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末氓癌,一起剝皮案震驚了整個(gè)濱河市谓谦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌贪婉,老刑警劉巖反粥,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異谓松,居然都是意外死亡星压,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進(jìn)店門鬼譬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來娜膘,“玉大人,你說我怎么就攤上這事优质】⑻埃” “怎么了?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵巩螃,是天一觀的道長演怎。 經(jīng)常有香客問我,道長避乏,這世上最難降的妖魔是什么爷耀? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮拍皮,結(jié)果婚禮上歹叮,老公的妹妹穿的比我還像新娘。我一直安慰自己铆帽,他們只是感情好咆耿,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著爹橱,像睡著了一般萨螺。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天慰技,我揣著相機(jī)與錄音椭盏,去河邊找鬼。 笑死惹盼,一個(gè)胖子當(dāng)著我的面吹牛庸汗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播手报,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蚯舱,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了掩蛤?” 一聲冷哼從身側(cè)響起枉昏,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎揍鸟,沒想到半個(gè)月后兄裂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡阳藻,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年晰奖,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腥泥。...
    茶點(diǎn)故事閱讀 39,834評論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡匾南,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蛔外,到底是詐尸還是另有隱情蛆楞,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布夹厌,位于F島的核電站豹爹,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏矛纹。R本人自食惡果不足惜臂聋,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望或南。 院中可真熱鬧逻住,春花似錦、人聲如沸迎献。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽吁恍。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間冀瓦,已是汗流浹背伴奥。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留翼闽,地道東北人拾徙。 一個(gè)月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像感局,于是被迫代替她去往敵國和親尼啡。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容