模型排序能力與用戶相關(guān)性

在推薦場景下,模型auc大于0.5,其排序能力一定高于隨機嗎辽旋?模型離線評估auc大于0.5,上線后發(fā)現(xiàn)與隨機推薦沒差別檐迟?排序的商品結(jié)果與用戶沒有相關(guān)性补胚?

關(guān)于相關(guān)性與偏置信息

對于單目標(biāo)的推薦排序來說改鲫,模型能起到的優(yōu)化效果只跟相關(guān)性有關(guān)(即內(nèi)容與用戶的相關(guān)性本身)鸳吸,與用戶之間的差異,位置偏置策橘,時間等因素都是無關(guān)的敦间。
比如瓶逃,我們在模型中假設(shè)只使用這些偏置因素束铭,而不加入相關(guān)性特征(譬如完全沒有item特征),也可以獲得不錯的auc厢绝,模型能區(qū)分不同用戶/位置/時間之間的點擊率差異契沫,但并不能區(qū)分每個人在特定的時間會喜歡怎樣的item。所以昔汉,最終排序結(jié)果懈万,和直接隨機排序是沒有差別的。
即:模型的排序能力體現(xiàn)在兩方面靶病,其一是對偏置信息的排序能力会通,其二是對用戶相關(guān)性的排序能力。

  • Q1:那我們需要在模型中加入這些偏置嗎娄周?
    A:需要涕侈,如果不加入這些特征,則會導(dǎo)致omitted-variable bias(OVB[1]昆咽,其實OVB與causal inference中的confounding bias是有很多關(guān)聯(lián)之處的[2])驾凶。要理解起來也很簡單,譬如某用戶手機有bug會自動點擊第一個內(nèi)容掷酗,如果不加入位置特征调违,那么模型就會錯誤地認(rèn)為出該商品與該用戶有很強的相關(guān)性,但其實推薦另一個商品在第一位也會被點擊泻轰。如果加入位置信息技肩,模型則能學(xué)到點擊的“原因“來自于第一個位置,而非用戶相關(guān)性浮声。
    --
    PS:在這里很多團隊會犯錯虚婿,譬如有些團隊在新客場景選擇用剔除用戶特征的模型在老客歷史數(shù)據(jù)上訓(xùn)練以期望此模型能在新客業(yè)務(wù)中有更好的效果,認(rèn)為此舉剔除了用戶特征的影響泳挥,這就是很常見的認(rèn)知誤區(qū)然痊。
    當(dāng)然,直接無腦加入特征也會造成一定的問題屉符,其實特征分為兩類:
    第一類剧浸,固有屬性。譬如用戶的年齡矗钟,職業(yè)唆香,地區(qū)等等。
    第二類吨艇,用戶反饋數(shù)據(jù)躬它。譬如7天內(nèi)點擊數(shù)量,購買數(shù)量东涡,曝光數(shù)量等等冯吓。
    其實第二類反饋特征為0倘待,有兩種可能,第一種桑谍,新用戶延柠,第二種,老客戶锣披,但是他就是不喜歡點擊贞间。如果我們大量的樣本是老客戶,那么這樣的特征就會在新用戶身上產(chǎn)生bias雹仿,偏向那些不喜歡點擊的老客戶(因為特征表現(xiàn)一樣增热,但是ground truth真實點擊率是不同的)。因此胧辽,一些簡潔的做法是峻仇,我們需要在模型中加入譬如用戶注冊時間,來訪次數(shù)邑商,曝光次數(shù)等等數(shù)值特征來“糾正”這些累計數(shù)值在時間上的“偏差”摄咆。理論上只要直接加入這些特征,dnn等模型就能抽取出其中的各種非線性關(guān)系人断,但是實際中這樣可能效率不高吭从,因此可以加入一些特定的特征工程。
    反正核心就是恶迈,這類信息得輸入給模型涩金,如果是你“先驗”就比較重要的信息,更應(yīng)該以更顯式的方式輸入暇仲,以便加速模型的收斂步做。(很多做特征抽取的優(yōu)化,其實一定程度上奈附,也是在“加速”模型的收斂)
  • Q2:全量數(shù)據(jù)集上的AUC指標(biāo)也由兩方面組成全度,一方面是偏置信息帶來的AUC,一方面是用戶內(nèi)容相關(guān)性帶來的AUC斥滤。我們真正想要得到的模型将鸵,是對用戶內(nèi)容相關(guān)性有更好排序能力的模型。那么我們能否在離線評估的時候剔除這些因素中跌,更具體地評估模型對相關(guān)性的排序能力
    A1:使用隨機推薦的數(shù)據(jù)來做評估菇篡。這里其實相當(dāng)于在causal inference中進行完全無偏的隨機實驗漩符,來驗證結(jié)果。(數(shù)據(jù)完全無偏驱还,就不需要adjust for confounder了)
    A2:使用用戶/session級別的gauc指標(biāo)來評估嗜暴,這里類似于于對實驗進行control variable(control這些confounder)凸克。

Refer:
[1]OVB
見:https://en.wikipedia.org/wiki/Omitted-variable_bias

[2]OVB與confounding bias之間的差異:(mediator and confounder)
https://stats.stackexchange.com/questions/496328/difference-omitted-variable-bias-and-confounding
1、即當(dāng)缺失的變量為mediator的時候闷沥,這時其實X \rightarrow Y的估計在total effect維度是無偏的萎战,但是對于direct effect來說是有偏的。(即在prediction problem中是沒問題的舆逃,但是在causal problem中是有偏的)
2蚂维、而當(dāng)缺失變量為confounder的時候,其估計的參數(shù)路狮,在total effect維度也是有偏的虫啥。當(dāng)然,direct effect也是有偏的奄妨。(在causal和prediction中都是有問題的)
3涂籽、因此,通常砸抛,這個bias要視情況來分析评雌。譬如在臨床醫(yī)療等領(lǐng)域,當(dāng)我們關(guān)注某變量對疾病的直接影響直焙,那么需要在direct effect保持無偏景东,因此無論mediator抑或confounder都需要被重視。而互聯(lián)網(wǎng)ctr預(yù)估等領(lǐng)域箕般,當(dāng)只關(guān)注最終的估計Y時耐薯,缺失mediator不會導(dǎo)致total effect的bias所以可以忽略。當(dāng)然丝里,這都是理論分析曲初,實際上我們并無法準(zhǔn)確分辨mediator和confounder。

[3]關(guān)于 Collider 變量對模型的影響:
https://stats.stackexchange.com/questions/399640/including-collider-variables-in-prediction
總結(jié)就是:
1杯聚、在prediction problem中臼婆,加入collider并不影響結(jié)果(不影響預(yù)估結(jié)果,但是模型系數(shù)失去了表達(dá)”causality的性質(zhì)“)
2幌绍、在causal problem中颁褂,collider會帶來bias。(系數(shù)無法表征causality)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末傀广,一起剝皮案震驚了整個濱河市颁独,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伪冰,老刑警劉巖誓酒,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡靠柑,警方通過查閱死者的電腦和手機寨辩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來歼冰,“玉大人靡狞,你說我怎么就攤上這事「舻眨” “怎么了甸怕?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長畔勤。 經(jīng)常有香客問我蕾各,道長,這世上最難降的妖魔是什么庆揪? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任式曲,我火速辦了婚禮,結(jié)果婚禮上缸榛,老公的妹妹穿的比我還像新娘吝羞。我一直安慰自己,他們只是感情好内颗,可當(dāng)我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布钧排。 她就那樣靜靜地躺著,像睡著了一般均澳。 火紅的嫁衣襯著肌膚如雪恨溜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天找前,我揣著相機與錄音糟袁,去河邊找鬼。 笑死躺盛,一個胖子當(dāng)著我的面吹牛项戴,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播槽惫,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼周叮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了界斜?” 一聲冷哼從身側(cè)響起仿耽,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎各薇,沒想到半個月后项贺,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年敬扛,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片朝抖。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡啥箭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出治宣,到底是詐尸還是另有隱情急侥,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布侮邀,位于F島的核電站坏怪,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏绊茧。R本人自食惡果不足惜铝宵,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望华畏。 院中可真熱鬧鹏秋,春花似錦、人聲如沸亡笑。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽仑乌。三九已至百拓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間晰甚,已是汗流浹背衙传。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留压汪,地道東北人粪牲。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像止剖,于是被迫代替她去往敵國和親腺阳。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容