模型的評估分線上評估與線下評估,如何來對模型進行線上評估與線下評估呢粤蝎?它們之間又有什么關系
首先怎么區(qū)別它們:
首先弄清楚它們的目標追葡,離線評估是從算法層面去評估模型性能的,方法一般是依模型類別而定侈玄;線上評估是從收益層面評估模型好壞的,它也是模型評估的最后一個環(huán)節(jié)吟温。
分別有哪些方法:
線上評估一般也就是通過AB測試的方式來做模型選擇序仙,再加上calibration,根據(jù)實際流量的反饋數(shù)據(jù) 鲁豪,來對模型做校驗潘悼。
線下評估方法則更具有多樣性,不同的模型有不同的評估方法爬橡。分類器常用的評估方法有accuracy auc precision recall 等治唤,排序模型有MAP NDCG等。
線上評估方法與線下評估方法是否具有正相關性或者一致性糙申?宾添,即優(yōu)化線下模型能直接影響線上的收益呢?
這個就需要工程人員根據(jù)對業(yè)務的理解設計出另外一種合理的評估方法柜裸,讓它來銜接線下與線上缕陕,反應線下模型對線上收益的影響。
就排序模型來說疙挺,對于線上來說扛邑,我們通過轉化率或者點擊率,即收益铐然,來判斷模型的好壞蔬崩;而對于線下來說恶座,算法的目標是把相關性強的item放到前面位置,線下我們通過MAP值或者NDCG值來評估模型的性能舱殿。但是它們是否具有一致性呢奥裸,也就是說線上MAP值的提高是否可以提高線上收益,因此我們需要設計出另外一個評估方法沪袭,平均成交位置湾宙,即點擊或者轉化(成交)的item所在位置的平均值。而這個評估方法的出發(fā)點在冈绊,相關性的強的越靠前侠鳄,平均成單位置越小,越容易轉化死宣,這也是一種普遍認可的比較直觀的觀點伟恶,當然這個觀點能否經(jīng)得住考驗,只有將模型放到線上看了
所以毅该,通常我們所說的設計一套評估方案博秫,其實就是設計這么一個中間評估方法來銜接線上與經(jīng)下,如果能夠保證它們的一致性眶掌,那么這套評估方法站得住腳挡育。