深度學(xué)習(xí) 第6次作業(yè) 機(jī)器學(xué)習(xí)(ML)策略(1)

1.正交化
正交化(Orthogonalization) 的核心在于每次調(diào)整只會影響模型某一方面的性能,而對其他功能沒有影響咨油。這種方法有助于更快更有效地進(jìn)行機(jī)器學(xué)習(xí)模型的調(diào)試和優(yōu)化您炉。

比如電視條件:有調(diào)節(jié)高度的按鈕,寬度的按鈕役电,旋轉(zhuǎn)的按鈕闸迷,
色彩的按鈕,亮度的按鈕跃赚,每個(gè)按鈕負(fù)責(zé)一件事情澳泵,不會影響其他按鈕調(diào)節(jié)的維度,使分析更為簡單瓢谢。
在機(jī)器學(xué)習(xí)(監(jiān)督學(xué)習(xí))系統(tǒng)中畸写,可以劃分四個(gè)“功能”:
1)系統(tǒng)在訓(xùn)練集上表現(xiàn)的好。否則氓扛,使用更大的神經(jīng)網(wǎng)絡(luò)枯芬、更好的優(yōu)化算法;
2)系統(tǒng)在開發(fā)集上表現(xiàn)的好采郎。否則千所,使用正則化、更大的訓(xùn)練集蒜埋;
3)系統(tǒng)在測試集上表現(xiàn)的好 淫痰。否則,使用更大的開發(fā)集整份;
4)在真實(shí)的系統(tǒng)環(huán)境中表現(xiàn)的好 待错。否則,修改開發(fā)測試集烈评、修改代價(jià)函數(shù)火俄。

2.單一數(shù)字評估指標(biāo)
如果用多個(gè)指標(biāo)去評估各個(gè)系統(tǒng)的表現(xiàn),很難抉擇讲冠,因?yàn)楦饔欣坠峡汀?yīng)該嘗試去設(shè)置一個(gè)合理的單一實(shí)數(shù)評估指標(biāo),所有系統(tǒng)都通過這一個(gè)指標(biāo)來評估好壞,問題就會簡單的多谱仪,迭代速度也會加快玻熙。
查準(zhǔn)率(Precision):計(jì)算結(jié)果中 true 的個(gè)數(shù)除以計(jì)算結(jié)果的個(gè)數(shù)
查全率(Recall): 計(jì)算結(jié)果中true的個(gè)數(shù)除以全集中真實(shí)true的個(gè)數(shù)
F1 Score:查準(zhǔn)率和查全率的調(diào)和平均數(shù)

3.滿足和優(yōu)化指標(biāo)

對于某一問題,如要求模型準(zhǔn)確率盡可能的高芽卿,運(yùn)行時(shí)間在100 ms以內(nèi)揭芍。這里以Accuracy為優(yōu)化指標(biāo),以Running time為滿足指標(biāo)卸例,我們可以從中選出B是滿足條件的最好的分類器称杨。

一般的,如果要考慮N個(gè)指標(biāo)筷转,則選擇一個(gè)指標(biāo)為優(yōu)化指標(biāo)姑原,其他N-1個(gè)指標(biāo)都是滿足指標(biāo)。

4.訓(xùn)練/開發(fā)/測試集劃分
1)所選擇的開發(fā)集和測試集中的數(shù)據(jù)呜舒,要與未來想要或者能夠得到的數(shù)據(jù)類似锭汛,即模型數(shù)據(jù)和未來數(shù)據(jù)要具有相似性
2)在選擇開發(fā)集和測試集時(shí)要使二者來自同一分布,且從所有數(shù)據(jù)中隨機(jī)選取

5.開發(fā)集合測試集的大小
開發(fā)驗(yàn)證集dev 和 單一評估指標(biāo)一起確定了模型的訓(xùn)練目標(biāo)袭蝗。
傳統(tǒng)劃分:數(shù)據(jù)量小唤殴,100-10000
70/30
60/20/20
大數(shù)據(jù)劃分:數(shù)據(jù)量大,>1000000
98/1/1
99/0.5/0.5
測試集: 評測性能指標(biāo)到腥,10000或100000 足夠了
如果不需要評估性能指標(biāo)朵逝,甚至可以沒有測試集(不推薦)。在沒有測試集時(shí)乡范,只有train/dev 但是人們習(xí)慣說成train/test配名, 我們應(yīng)該知道這里的test其實(shí)指的是dev。

6.什么時(shí)候該改變開發(fā)/測試集和指標(biāo)
如果評估指標(biāo)無法正確評估算法的排名(排名與真實(shí)場景不符)晋辆,則需要重新定義一個(gè)新的評估指標(biāo)渠脉。
如果在訓(xùn)練開發(fā)測試的過程中得到的模型效果比較好,但是在實(shí)際應(yīng)用中自己所真正關(guān)心的問題效果卻不好的時(shí)候(數(shù)據(jù)與真實(shí)場景不符)瓶佳,就需要改變開發(fā)芋膘、測試集或者評估指標(biāo)。

7.為什么是人的表現(xiàn)
造成這種現(xiàn)象的原因可能有以下幾種:當(dāng)比人類表現(xiàn)差時(shí)
1)讓人們幫忙標(biāo)記數(shù)據(jù)
2)錯(cuò)誤分析霸饲,比人差到哪里了
3)分析偏差和方差

8.可避免偏差
一般我們不用貝葉斯誤差去衡量偏差索赏,而是用人類的表現(xiàn)去衡量。
偏差:訓(xùn)練集的錯(cuò)誤
可避免偏差:訓(xùn)練集的錯(cuò)誤與人類的錯(cuò)誤的差
方差: 開發(fā)驗(yàn)證集的錯(cuò)誤與訓(xùn)練集錯(cuò)誤的差
比較可避免偏差和方差贴彼,看改進(jìn)哪個(gè)對模型進(jìn)步更有意義。

  1. 理解人的表現(xiàn)
    對人類水平誤差有一個(gè)大概的估計(jì)埃儿,可以讓我們?nèi)ス烙?jì)貝葉斯誤差器仗,這樣可以讓我們更快的做出決定:減少偏差還是減少方差。
    而這個(gè)決策技巧通常都很有效果,直到系統(tǒng)的性能開始超越人類精钮,那么我們對貝葉斯誤差的估計(jì)就不再準(zhǔn)確了威鹿,再從減少偏差和減少方差方面提升系統(tǒng)性能就會比較困難了。

10.超過人的表現(xiàn)
在架構(gòu)化數(shù)據(jù)的模型中轨香,機(jī)器學(xué)習(xí)系統(tǒng)的表現(xiàn)很容易超過人類忽你。
1)點(diǎn)擊率預(yù)估
2)推薦算法
3)物流預(yù)測
4)銀行貸款審批
在自然感知的模型中,人類比較擅長臂容,機(jī)器學(xué)習(xí)想要超過人類就比較困難科雳,不過也有一些機(jī)器學(xué)習(xí)系統(tǒng)的表現(xiàn)已經(jīng)超過了人類。

  1. 改善你的模型的表現(xiàn)
    基本假設(shè):
    模型在訓(xùn)練集上有很好的表現(xiàn)
    模型推廣到開發(fā)和測試集啥會給你也有很好的表現(xiàn)
    減少可避免偏差

訓(xùn)練更大的模型:
訓(xùn)練更長時(shí)間脓杉、訓(xùn)練更好的優(yōu)化算法(Momentum糟秘、RMSprop、Adam)
尋找更好的網(wǎng)絡(luò)架構(gòu)(RNN球散、CNN)尿赚、尋找更好的超參數(shù)

減少方差:
收集更多的數(shù)據(jù)
正則化(L2、dropout蕉堰、數(shù)據(jù)增強(qiáng))
尋找更好的網(wǎng)絡(luò)架構(gòu)(RNN凌净、CNN)、尋找更好的超參數(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末屋讶,一起剝皮案震驚了整個(gè)濱河市冰寻,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌丑婿,老刑警劉巖性雄,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異羹奉,居然都是意外死亡秒旋,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進(jìn)店門诀拭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來迁筛,“玉大人,你說我怎么就攤上這事耕挨∠肝裕” “怎么了?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵筒占,是天一觀的道長贪庙。 經(jīng)常有香客問我,道長翰苫,這世上最難降的妖魔是什么止邮? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任这橙,我火速辦了婚禮,結(jié)果婚禮上导披,老公的妹妹穿的比我還像新娘屈扎。我一直安慰自己,他們只是感情好撩匕,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布鹰晨。 她就那樣靜靜地躺著,像睡著了一般止毕。 火紅的嫁衣襯著肌膚如雪模蜡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天滓技,我揣著相機(jī)與錄音哩牍,去河邊找鬼。 笑死令漂,一個(gè)胖子當(dāng)著我的面吹牛膝昆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播叠必,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼荚孵,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了纬朝?” 一聲冷哼從身側(cè)響起收叶,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎共苛,沒想到半個(gè)月后判没,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡隅茎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年澄峰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辟犀。...
    茶點(diǎn)故事閱讀 38,163評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡俏竞,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出堂竟,到底是詐尸還是另有隱情魂毁,我是刑警寧澤,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布出嘹,位于F島的核電站席楚,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏税稼。R本人自食惡果不足惜烦秩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一刁赦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧闻镶,春花似錦、人聲如沸丸升。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽狡耻。三九已至墩剖,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間夷狰,已是汗流浹背岭皂。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留沼头,地道東北人爷绘。 一個(gè)月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像进倍,于是被迫代替她去往敵國和親土至。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容