機(jī)器學(xué)習(xí)包括有監(jiān)督學(xué)習(xí)(supervised learning),無監(jiān)督學(xué)習(xí)(unsupervised learning)媳维,和半監(jiān)督學(xué)習(xí)(semi-supervised learning).
在有監(jiān)督學(xué)習(xí)中,數(shù)據(jù)是有標(biāo)注的盗扒,以(x, t)的形式出現(xiàn)辆它,其中x是輸入數(shù)據(jù),t是標(biāo)注.正確的t標(biāo)注是ground truth获茬,* 錯(cuò)誤的標(biāo)記則不是港庄。(也有人將所有標(biāo)注數(shù)據(jù)都叫做ground truth)
由模型函數(shù)的數(shù)據(jù)則是由(x, y)的形式出現(xiàn)的。其中x為之前的輸入數(shù)據(jù)恕曲,y為模型預(yù)測的值鹏氧。
標(biāo)注會(huì)和模型預(yù)測的結(jié)果作比較。在損耗函數(shù)(loss function / error function)中會(huì)將y 和 t 作比較佩谣,從而計(jì)算損耗(loss / error)把还。 比如在最小方差中:
因此如果標(biāo)注數(shù)據(jù)不是ground truth,那么loss的計(jì)算將會(huì)產(chǎn)生誤差茸俭,從而影響到模型質(zhì)量吊履。
比如輸入三維,判斷是否性感:
1. 錯(cuò)誤的數(shù)據(jù)
標(biāo)注數(shù)據(jù)1 ( (84,62,86) , 1)调鬓,其中x =(84,62,86), t = 1 艇炎。
標(biāo)注數(shù)據(jù)2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 腾窝。
這里標(biāo)注數(shù)據(jù)1是ground truth缀踪, 而標(biāo)注數(shù)據(jù)2不是。
預(yù)測數(shù)據(jù)1 y = -1
預(yù)測數(shù)據(jù)2 y = -1
2. 正確的數(shù)據(jù)
標(biāo)注數(shù)據(jù)1 ( (84,62,86) , 1)虹脯,其中x =(84,62,86), t = 1 驴娃。
標(biāo)注數(shù)據(jù)2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 归形。 (改為ground truth)
這里標(biāo)注數(shù)據(jù)1和2都是ground truth托慨。
預(yù)測數(shù)據(jù)1 y = -1
預(yù)測數(shù)據(jù)2 y = -1
由于使用錯(cuò)誤的數(shù)據(jù),對模型的估計(jì)比實(shí)際要糟糕暇榴。另外厚棵,標(biāo)記數(shù)據(jù)還被用來更新權(quán)重蕉世,錯(cuò)誤標(biāo)記的數(shù)據(jù)會(huì)導(dǎo)致權(quán)重更新錯(cuò)誤。因此使用高質(zhì)量的數(shù)據(jù)是很有必要的婆硬。
- 在半監(jiān)督學(xué)習(xí)中狠轻,對標(biāo)記數(shù)據(jù)也要進(jìn)行比較
來源:知乎