上限分析通常能提供一種很有價值的信號或者說很有用的導(dǎo)向告訴你流水線中的哪個部分最值得你花時間。
舉例:數(shù)值評價量度强饮,字符準(zhǔn)確度,圖像中的文字識別正確的比例
上限分析的主要思想:
首先關(guān)注這個機(jī)器學(xué)習(xí)流程中的第一個模塊文字檢測行您,歷每個測試集樣本,然后人為地告訴算法每一個測試樣本中什么地方出現(xiàn)了文字娃循,即100%正確地檢測出圖片中的文字信息。然后繼續(xù)運(yùn)行完接下來的幾個模塊笛质,也就是字符分割和字符識別捞蚂,然后使用跟之前一樣的評價量度指標(biāo)來測量整個系統(tǒng)的總體準(zhǔn)確度。假如準(zhǔn)確定提升敲霍,則改進(jìn)文字檢測有機(jī)會可以整體提高系統(tǒng)的準(zhǔn)確性丁存。用標(biāo)準(zhǔn)的文字檢測結(jié)果,同時用標(biāo)準(zhǔn)的字符分割結(jié)果柱嫌,遍歷測試樣本得到準(zhǔn)確率。
進(jìn)行上限分析的一個好處是知道了如果對每一個模塊進(jìn)行改善 它們各自的上升空間是多大与学。
如果我們擁有完美的文字檢測模塊嘉抓,那么整個系統(tǒng)的表現(xiàn)將會從準(zhǔn)確率72%上升到89%,因此效果的增益是17%卵佛。這就意味著如果你在現(xiàn)有系統(tǒng)的基礎(chǔ)上花費(fèi)時間和精力改善文字檢測模塊的效果敞斋,那么系統(tǒng)的表現(xiàn)可能會提高17%看起來這還挺值得。但是系統(tǒng)表現(xiàn)只提升了1%植捎,這便提供了一個很重要的信息告訴我們不管我們投入多大精力在字符分割上,系統(tǒng)效果的潛在上升空間也都是很小很小蚓峦。