第一部分:數(shù)據(jù)準(zhǔn)備-建立合適的開(kāi)發(fā)集和測(cè)試集
1. 從相同的分布中選擇開(kāi)發(fā)集和測(cè)試集惦辛,且開(kāi)發(fā)集和測(cè)試集數(shù)據(jù)需要與你預(yù)期的算法使用場(chǎng)景保持一致秒咨。這樣開(kāi)發(fā)集能夠更好的指導(dǎo)團(tuán)隊(duì)的改進(jìn)優(yōu)化方向,測(cè)試集能真正衡量算法在實(shí)際場(chǎng)景中的性能团赁。開(kāi)發(fā)集和測(cè)試集的分布可以與訓(xùn)練數(shù)據(jù)不同翰苫。
2. 選定一個(gè)數(shù)值型的評(píng)估標(biāo)準(zhǔn)作為團(tuán)隊(duì)的優(yōu)化方向止邮。如果存在多個(gè)目標(biāo)这橙,那么可以考慮:1. 合并成一個(gè)(如求平均誤差)標(biāo)準(zhǔn);或者导披,定義一個(gè)優(yōu)化目標(biāo)和多個(gè)滿足目標(biāo)(如運(yùn)行時(shí)間和模型尺寸)屈扎。
3. 在開(kāi)始一個(gè)新項(xiàng)目的時(shí)候,可以試著在一周內(nèi)快速確定開(kāi)發(fā)集/測(cè)試集以及優(yōu)化目標(biāo)撩匕。對(duì)于較為成熟的項(xiàng)目助隧,這個(gè)時(shí)間可以更長(zhǎng)一些。
4. 開(kāi)發(fā)集需要足夠大滑沧,以保證能夠區(qū)分出算法精確度的差異,但是也不必非常大巍实。測(cè)試集也需要足夠大滓技,能夠使你對(duì)算法的最終性能有信心。
5. 如果開(kāi)發(fā)集和優(yōu)化指標(biāo)棚潦,不再能夠給團(tuán)隊(duì)指明正確的方向令漂,那么需要快速改變他們:
(i)如果開(kāi)發(fā)集過(guò)擬合,那么需要獲取更多的驗(yàn)證數(shù)據(jù)丸边。
(ii)如果真實(shí)場(chǎng)景的數(shù)據(jù)與開(kāi)發(fā)集/測(cè)試集數(shù)據(jù)不符叠必,則獲取更多的開(kāi)發(fā)集/測(cè)試集數(shù)據(jù)。
(iii)如果優(yōu)化目標(biāo)不再能夠反映團(tuán)隊(duì)當(dāng)前的目標(biāo)妹窖,則修改優(yōu)化目標(biāo)纬朝。