論文地址:Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate
摘要
??精確的估算點(diǎn)擊后轉(zhuǎn)化率(CVR)對工業(yè)中推薦和廣告場景等來說是至關(guān)重要的适袜。傳統(tǒng)的CVR模型采用了是最近流行的深度模型并且獲得了一個最卓越的性能洪鸭。然而在實(shí)際中在特殊任務(wù)的場景遇到了一些問題渊季,是得CVR建模具有挑戰(zhàn)性塌忽。例如,傳統(tǒng)的CVR模型時利用曝光后點(diǎn)擊的樣本數(shù)據(jù)進(jìn)行訓(xùn)練的但是使用時卻在整體數(shù)據(jù)(曝光的數(shù)據(jù))上進(jìn)行預(yù)測借浊。這就造成了樣本選擇偏差問題(sample selecting bias)挑胸。另外揽思,這里也存在嚴(yán)重的數(shù)據(jù)稀疏問題(data sparisity)悉抵。這這篇文章中肩狂,我們提出一種新穎的CVR模型,它充分利用的用戶的行為序列:展示->點(diǎn)擊->轉(zhuǎn)化基跑。這個模型叫做ESMM(Entire space Multi-task Model)婚温,他同時解決了這2個問題 1)它直接在全部樣本上進(jìn)行訓(xùn)練。 2) 采用了特征表證遷移學(xué)習(xí)策略媳否。實(shí)驗(yàn)是在淘寶推薦系統(tǒng)的流量日志收集的數(shù)據(jù)集中進(jìn)行的,ESMM模型的效果要明顯優(yōu)于其他的方法荆秦。我們還發(fā)布了一個采樣本部的數(shù)據(jù)集篱竭,以便以后的研究。據(jù)我們所知步绸,對CVR模型來說這份數(shù)據(jù)是第一個包含具有順序性的點(diǎn)擊和轉(zhuǎn)化標(biāo)簽的公開數(shù)據(jù)集掺逼。
1、介紹
??轉(zhuǎn)化率(CVR)預(yù)測是工業(yè)應(yīng)用系統(tǒng)的一項(xiàng)重要任務(wù)瓤介,例如在線廣告和推薦系統(tǒng)等吕喘。比例如,預(yù)測cvr被用在OCPC廣告以調(diào)整每次的點(diǎn)擊的競價刑桑,以實(shí)現(xiàn)評估和廣告主的雙贏氯质。這也推薦系統(tǒng)平衡用戶點(diǎn)擊偏好和購買偏好的重要因素。
??在這篇文章祠斧,我們關(guān)注的是點(diǎn)擊后的CVR預(yù)估問題闻察。為了簡化討論,我們以電子商務(wù)中的推薦系統(tǒng)為例琢锋。給定推薦一個商品辕漂,用戶可能點(diǎn)擊,然后未來再購買吴超。換另句話說钉嘹,用戶的行為遵循這樣的一個順序序列:曝光->點(diǎn)擊->轉(zhuǎn)化。這樣鲸阻,CVR模型指的是預(yù)估點(diǎn)擊后轉(zhuǎn)化的概率:跋涣。
通常,傳統(tǒng)的CVR建模方式采用了和CTV預(yù)估類似的技術(shù)赘娄,例如最近流行的深度網(wǎng)絡(luò)仆潮。然而,這存在著一些特有的問題是得CVR建模面臨挑戰(zhàn)遣臼。其中性置,我們列出了在實(shí)際中兩個關(guān)鍵的問題:1)樣本選擇偏差問題(SSB,sample selection bias)揍堰。正如Figure 1中表示的鹏浅,傳統(tǒng)的CVR模型是在點(diǎn)擊數(shù)據(jù)上進(jìn)行訓(xùn)練的嗅义,然而卻在整了數(shù)據(jù)集上進(jìn)行預(yù)測。SSB問題損害了訓(xùn)練后的模型泛化能力隐砸。 2)數(shù)據(jù)稀疏問題(DS之碗,data sparisy)。在實(shí)際中季希,采集訓(xùn)練cvr模型的數(shù)據(jù)要比采集crt模型的數(shù)據(jù)少的多褪那。訓(xùn)練數(shù)據(jù)的系數(shù)性使得CVR模型擬合變得更加困難。
??這里有一些研究嘗試解決這些問題式塌。文獻(xiàn)5在不同的特殊上采用分層估計(jì)博敬,并于邏輯回歸模型結(jié)合來解決DS問題。然而峰尝,它依賴先驗(yàn)知識去構(gòu)建層次結(jié)構(gòu)偏窝,這很難應(yīng)用在數(shù)千萬的用戶和商品推薦系統(tǒng)中。文獻(xiàn)11提出了一種過采樣的方式武学,它是通過了稀有的類別祭往,減緩了稀疏性,但是對采樣率比較敏感火窒。文獻(xiàn)6中AMAN(All Missing As Negative)采用了隨機(jī)選擇未點(diǎn)擊的數(shù)據(jù)作為負(fù)樣本硼补,通過引入未被觀察的數(shù)據(jù)可以在一定程度上消除SSB問題,但是會導(dǎo)致預(yù)估值偏低的問題沛鸵。文獻(xiàn)10提出的無偏差方法解決了CTR模型中的SSB問題括勺,它是通過拒絕采樣來擬合真實(shí)的潛在分布。然而曲掰,當(dāng)用拒絕概率除以加權(quán)樣本時會遇到數(shù)值不穩(wěn)定的問題疾捍。總而言之栏妖,SSB和DS問題在CVR模型的角度上都沒有被很好的解決乱豆,而且上面的方法沒有一個利用到行為序列信息。
??在這篇文章中吊趾,通過充分利用用戶的行為序列宛裕,我們推出一個新穎的方案:ESMM(Entire space Multi-task Model),它可以同時解決SSB和DS問題论泛。在ESMM模型中揩尸,有兩個輔助任務(wù):曝光后的點(diǎn)擊率(CTR)預(yù)測任務(wù) 和 曝光點(diǎn)擊后的轉(zhuǎn)化率(CTCVR)任務(wù)。 不是直接利用點(diǎn)擊數(shù)據(jù)訓(xùn)練CVR模型屁奏,ESMM而是將作為一個中間變量岩榆,用它乘以等于。用整體的曝光樣本去評估pCVR和pCTCVR,因此推出pCVR同樣也適合于整個樣本勇边。這就表明SSB問題已經(jīng)解決了犹撒。另外,CVR的網(wǎng)絡(luò)特征表示層的網(wǎng)絡(luò)參數(shù)和CTR網(wǎng)絡(luò)是共享的粒褒,CTR網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)會更豐富一些识颊。這種遷移學(xué)習(xí)的方式有助于減輕DS問題。
??在這個工作中奕坟,我們手機(jī)的淘寶推薦系統(tǒng)的流量日志祥款。完整的數(shù)據(jù)集包含了89億個待遇點(diǎn)擊和轉(zhuǎn)化標(biāo)簽的樣本。進(jìn)行仔細(xì)的實(shí)驗(yàn)执赡。ESMM始終優(yōu)于其他的模型镰踏,這證明了我們提出的方法的有效性。我們通風(fēng)發(fā)布了我們數(shù)據(jù)集沙合,以供未來再這個領(lǐng)域進(jìn)行研究。
2跌帐、方案
2.1 符號
??我們假設(shè)觀察數(shù)據(jù)集合 ,樣本在空間中一種分布的樣本首懈,表示的是特征空間,和表示的標(biāo)記空間谨敛,是總共的曝光數(shù)究履。表示觀察曝光的特征向量,通常是高緯稀疏特征脸狸,例如用戶域最仑、物品域等等。和是二值標(biāo)簽炊甲,或者分別表示的是是否點(diǎn)擊和是否轉(zhuǎn)化泥彤。是點(diǎn)擊和轉(zhuǎn)化標(biāo)簽的順序相關(guān)性,即在發(fā)生轉(zhuǎn)化事件肯定是在點(diǎn)擊事件之后卿啡。
??點(diǎn)擊后CVR模型的就是預(yù)估 吟吝。兩種相關(guān)的概率值是:曝光后點(diǎn)擊的概率(CTR) 和曝光后點(diǎn)擊并且轉(zhuǎn)換的概率(CTCVR)。給定一個曝光颈娜,他們的關(guān)系就是等式1:
2.2 CVR模型和挑戰(zhàn)
??近期深度學(xué)習(xí)的方式被應(yīng)用到CVR模型上剑逃,取得了一個目前最好的效果。他們中大多數(shù)都在用相似的Embedding&MLP網(wǎng)絡(luò)結(jié)構(gòu)官辽。在Figure2中的左半部分描述就是這種結(jié)構(gòu)蛹磺,這里我們?yōu)榱朔奖惴Q之為BASE模型。
??簡短的來說同仆,傳統(tǒng)的CVR模型時直接預(yù)估,是在點(diǎn)擊樣本. 是所有曝光中點(diǎn)擊的數(shù)據(jù)萤捆。顯然,是的一個子集。注意到中曝光點(diǎn)擊但是沒有轉(zhuǎn)換的數(shù)據(jù)作為負(fù)樣本鳖轰,曝光點(diǎn)擊并且轉(zhuǎn)換的數(shù)據(jù)作為正樣本清酥。在實(shí)際中,CVR模型會遇到幾個問題蕴侣,面臨著挑戰(zhàn)焰轻。
樣本選擇偏差(Sample sellection bias,SSB)昆雀。事實(shí)上辱志,傳統(tǒng)的CVR模型采用了通過引入輔助特征計(jì)算空間近似認(rèn)為 。是與有關(guān)聯(lián)的受限制的空間狞膘。對于存在數(shù)據(jù)點(diǎn)對其中并且是的點(diǎn)擊標(biāo)簽揩懒,這樣是在整個點(diǎn)擊樣本上利用進(jìn)行訓(xùn)練的。在使用階段挽封,預(yù)測值是在整個空間通過計(jì)算得到的已球,這里有個假設(shè)條件就是對任何樣本時都滿足。這個假設(shè)很有可能被違背辅愿,因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=X_c" alt="X_c" mathimg="1">只是中的一個子集智亮。這個會受到罕見的點(diǎn)擊事件的隨機(jī)性的嚴(yán)重影響,這些事件的概率在空間是不同的点待。此外阔蛉,如果實(shí)踐中沒有充足的實(shí)際觀測,可能與分布情況有很大的不同癞埠。這會導(dǎo)致訓(xùn)練樣本的分布與真實(shí)樣本的分布有很大的不同状原,影響CVR建模的泛化性能。
數(shù)據(jù)稀疏(Data sparsity苗踪,DS)颠区。傳統(tǒng)的訓(xùn)練CVR模型時通過點(diǎn)擊樣本上訓(xùn)練的。點(diǎn)擊事件的罕見發(fā)生是得CVR建模所需的數(shù)據(jù)非常稀疏徒探。直觀地說瓦呼,它通常要比CTV任務(wù)(在全部打曝光數(shù)據(jù)上訓(xùn)練)的數(shù)據(jù)要低上1-3個數(shù)量級,Table1展示了我們實(shí)驗(yàn)數(shù)據(jù)集的統(tǒng)計(jì)情況测暗。央串,這里CVR訓(xùn)練數(shù)據(jù)僅為CTR訓(xùn)練數(shù)據(jù)的4%。
(3.4/84=0.04047,324/8950=0.0362)
值得一提的是碗啄,CVR建模還有另外一個挑戰(zhàn)反饋延遲問題质和。這里我們沒有把重點(diǎn)放在此,一個原因是在我們的系統(tǒng)中的反饋延遲問題是可以接受的稚字,另外一個原因是我們的方法可以跟先前的工作(文獻(xiàn)1)結(jié)合起來處理這個問題饲宿。
2.3 ESMM
??ESMM模型的描述Fig2厦酬。這里充分利用的用戶行為的順序序列。借鑒了多任務(wù)學(xué)習(xí)(文獻(xiàn)9)的思想瘫想,引入了CTR和CTCVR兩個輔助任務(wù)仗阅。
??在整體上,ESMM對一次曝光同時輸出pCTR国夜、pCVR和pCTCVR减噪。ESMM主要包括2個子網(wǎng)絡(luò):CVR網(wǎng)絡(luò),就是圖2中的左半部分 和 CTR網(wǎng)絡(luò)车吹,就是圖2中的右半部分筹裕。兩個模型都采用BASE模型。CTCVR是將CVR和CTR網(wǎng)絡(luò)的輸出結(jié)果作為輸出窄驹。在ESMM上有個特殊的點(diǎn)朝卒,這些亮點(diǎn)對CVR建模有顯著影響,并將ESMM與傳統(tǒng)的模型區(qū)分開乐埠。
ESMM是在全部樣本空間上建模抗斤。公式1給出我們提示,我們可以轉(zhuǎn)換為公示2丈咐。
??這里 和都是在所有的曝光樣本數(shù)據(jù)集上訓(xùn)練的豪治。從公式2得之我們評估pCTCVR、pCTR和pCVR可以在全部的樣本上進(jìn)行扯罐,這就直接解決了樣本選擇偏差問題。單獨(dú)訓(xùn)練模型pCTR和pCTCVR ,通過公式2可以得到pCVR,這似乎很容易烦衣,這里我們簡單的定義為DIVISION方式歹河。然而實(shí)際上pCTR是一個的數(shù)值,除法操作會造成數(shù)據(jù)溢出問題花吟。ESMM通過用乘法的形式避免了則個問題秸歧。在ESMM中,pCVR只是一個受公式1影響的中間變量衅澈。pCTR和pCTCVR是ESMM在整個數(shù)據(jù)空間中評估的主要因素键菱。乘法的形式是得三個關(guān)聯(lián)在一起,并利用整個順序序列的數(shù)據(jù)進(jìn)行共同訓(xùn)練今布,并在彼此之間傳遞信息经备。此外,它確保pCVR的值是在,如果是在DIVISION的方式中這個數(shù)可能超過1部默。
ESMM的損失函數(shù)見公式3侵蒙。它有CTR和CTCVR兩個損失項(xiàng)足證,是在全部的曝光數(shù)據(jù)進(jìn)行計(jì)算傅蹂,沒有使用CVR任務(wù)的損失纷闺。
這里和分別是CTR網(wǎng)絡(luò)和CVR網(wǎng)絡(luò)的參數(shù)算凿。是交叉熵?fù)p失函數(shù)。從數(shù)學(xué)上講犁功,公式3可以吧拆分為兩部分:和 ,這里實(shí)際上用到了點(diǎn)擊和轉(zhuǎn)換標(biāo)簽的順序依賴性氓轰。
共享特征表示。正如2.2中介紹的浸卦,embedding層將大規(guī)模的稀疏特征轉(zhuǎn)換為低緯的向量署鸡。它共享了深度網(wǎng)絡(luò)中大部分參數(shù),其學(xué)習(xí)過程需要大量的訓(xùn)練樣本镐躲。在ESMM中储玫,CVR網(wǎng)絡(luò)的embedding字段是和CTR網(wǎng)絡(luò)共享的。它遵循一種特征表證遷移學(xué)習(xí)范式萤皂。所有的CTR的訓(xùn)練樣本要比CVR的訓(xùn)練樣本多的多撒穷。這種共享參數(shù)特征的方式是得ESMM中的CVR網(wǎng)絡(luò)能夠從未點(diǎn)擊的曝光樣本中學(xué)習(xí),并且為緩解數(shù)據(jù)稀疏問題提供了很大的幫助裆熙。
注意到在ESMM子網(wǎng)絡(luò)中也可以其他的網(wǎng)絡(luò)結(jié)構(gòu)來替代端礼,這樣可能會得到更好的性能。由于本文篇幅限制入录,這里不細(xì)講蛤奥,而是更關(guān)注CVR建模在實(shí)際中遇到的挑戰(zhàn)。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集 僚稿。在我們的研究中凡桥,CVR建模領(lǐng)域還沒有具有點(diǎn)擊、轉(zhuǎn)換這樣的順序標(biāo)簽的公共數(shù)據(jù)集蚀同。未了評估我們的方法缅刽,我們從淘寶的推薦系統(tǒng)中采集了日志,并公布了整個數(shù)據(jù)集中的1%的隨機(jī)樣本數(shù)據(jù)蠢络,其大小約為38G(未壓縮)衰猛。在剩余部分,我們將公布的數(shù)據(jù)集稱之為Public Dataset 刹孔,將整個數(shù)據(jù)集稱之為Product Dataset啡省。表1總結(jié)了這兩份數(shù)據(jù)集的統(tǒng)計(jì)信息。詳細(xì)的介紹可以從公共數(shù)據(jù)的網(wǎng)站上找到髓霞。
競爭的模型介紹卦睹。在CVR建模方面,我們用幾種競爭模型進(jìn)行同事實(shí)驗(yàn)酸茴。
- BASE模型就是2.2中介紹的模型分预。(普通的深度網(wǎng)絡(luò))
- AMAN模型,它是采用負(fù)采樣的策略薪捍,以采樣比{10%笼痹,20%配喳,50%,100%}總匯報(bào)最佳的結(jié)果凳干。
- OVERSAMPLING模型晴裹,通過復(fù)制正樣本來降低稀疏數(shù)據(jù)訓(xùn)練的難度摩疑,采樣比在{2,3,5,10}進(jìn)行搜索懦胞。
- UNBIAS模型痪宰,通過拒絕采樣來擬合真實(shí)的樣本潛在分布情況易结。pCTR用來拒絕采樣的概率。
- DIVISION模型掰担,分別單獨(dú)的訓(xùn)練CTR和CTCVR網(wǎng)絡(luò)來估算pCTR和pCTCVR碟摆,然后通過公式2計(jì)算得到pCVR孕荠。
- ESMM-NS模型预厌,是ESMM的一個精簡版本阿迈,它沒有共享embedding參數(shù)
??前四種方法都是基于最新的網(wǎng)絡(luò)結(jié)構(gòu)最CVR建模的不同變體。DIVISION轧叽、ESMM-NS苗沧、ESMM都是整個樣本上建模的思想,其中有CVR炭晒、CTR待逞、CTCVR三個網(wǎng)絡(luò)。ESMM-NS和ESMM是共同訓(xùn)練這三個網(wǎng)絡(luò)网严,并通過獲取CVR網(wǎng)絡(luò)的結(jié)果來進(jìn)行效果比較识樱。為了公平起見,所有的競爭的模型都是使用BASE網(wǎng)絡(luò)的結(jié)構(gòu)和超參震束,1)使用ReLU激活函數(shù) . 2)embedding層維度設(shè)置為18 . 3)網(wǎng)絡(luò)每一層的維度為360 X 200 X 80 X 2 . 4)adam的參數(shù)設(shè)置為 .
評估方式牺荠。我們在兩個不同的任務(wù)上進(jìn)行比較 :(1)傳統(tǒng)的CVR預(yù)測任務(wù),評估pCVR是在點(diǎn)擊樣本上比較驴一。(2)CTCVR預(yù)測任務(wù),評估pCTCVR是在全部的曝光樣本上比較灶壶。任務(wù)2目的是在整個輸入空間比較CVR模型的效果肝断,它反映了模型對SSB問題的處理能力。在CTCVR任務(wù)中驰凛,所有的模型計(jì)算pCTCVR是等于,這里胸懈,1)pCVR是每個模型分別估計(jì)的,2)pCTR也是用相同的獨(dú)立訓(xùn)練的CTR網(wǎng)絡(luò)估計(jì)的(同樣的網(wǎng)絡(luò)結(jié)構(gòu)和超參)恰响。兩個評估任務(wù)都是用數(shù)據(jù)集中的一半作為訓(xùn)練趣钱,另外一半作為測試。利用AUC的評估方式胚宦。所有的實(shí)驗(yàn)重復(fù)了10次首有,并報(bào)告平均的結(jié)果燕垃。
3.2 在Public Dataset上的結(jié)果
??表2展示的不同模型的效果。(1)在CVR效果評估中井联,BASE模型的三個變體模型中卜壕,只有AMAN模型效果稍微差點(diǎn),這可能由于隨機(jī)采樣的影響烙常。OVERSAMOLING和UNBIAS在CVR和CTCVR效果都比BASE模型要好轴捎。(2)DIVISION和ESMM-NS在全部樣本上進(jìn)行CVR效果評估都比BASE模型上有顯著的提升。由于避免了數(shù)值不穩(wěn)定性(除以一個很小的數(shù)造成的)蚕脏,ESMM-NS的效果要比DIVSION好一些侦副。(3)ESMM進(jìn)一步改進(jìn)了ESMM-NS。通過利用用戶動作的序列行為驼鞭,通過為點(diǎn)擊的樣本中參數(shù)更新秦驯,ESMM提供了一種優(yōu)雅的解決方法,并挺尸消除了SSB和DS問題终议,擊敗了所有的競爭模型汇竭。對比BASE模型,ESMM模型在CVR的評估中提高了2.56%的絕對AUC收益穴张,即使對有偏差的樣本也能表現(xiàn)出良好的泛化性能细燎。在全部樣本下的預(yù)估CTCVR,ESMM可以獲得3.25%的AUC增益皂甘。這些結(jié)果證明了我們的模型有效性玻驻。
3.3 在Product Dataset上的結(jié)果
??我們進(jìn)一步評估ESMM模型在我們的生產(chǎn)數(shù)據(jù)集上,約89億的樣本偿枕,這比公共數(shù)據(jù)集要大兩個數(shù)量級璧瞬。為了驗(yàn)證訓(xùn)練數(shù)據(jù)集的容量大小的影響,我們呢對這個大規(guī)模的數(shù)據(jù)集上進(jìn)行了仔細(xì)的比較渐夸,設(shè)置不同的采樣率嗤锉。如圖3所示。第一墓塌,所有的模型都是隨之訓(xùn)練樣本的增加而提高瘟忱,這表面數(shù)據(jù)稀疏性的影響。除了AMAN在1%的樣本采樣下的CVR模型效果苫幢,其他的模型都比BSE模型要好访诱。第二,ESMM-NS和ESMM模型始終優(yōu)于競爭對手韩肝。特別的触菜,無論是CVR和CTCVR上,ESMM的AUC評估效果都遠(yuǎn)比其他模型要好很多哀峻。BASE模型是我們真正系統(tǒng)中主要流量的最新版本涡相。在整個樣本上訓(xùn)練哲泊,ESMM模型在CVR任務(wù)獲得了2.18%的絕對收益,在CTCVR任務(wù)中獲得了2.32%的絕對收益漾峡。對于工業(yè)應(yīng)用來說攻旦,這個一個顯著的提升(0.1%的AUC收益認(rèn)為是顯著的)
結(jié)論和未來工作
??在本文中,我們提出了一種新穎的CVR建模方式:ESMM生逸。ESMM充分利用了用戶操作的順序序列牢屋。在CTR和CTCVR兩個輔助任務(wù)的幫助下,ESMM比較好的解決了實(shí)際中的CVR建模樣本選擇偏差問題和數(shù)據(jù)稀疏問題槽袄。在實(shí)驗(yàn)中證明了ESMM模型的優(yōu)越性能烙无。這種方法可以很容易的推廣到具有用戶行為序列的場景。之后遍尺,我們打算在具有"請求->展示->點(diǎn)擊->轉(zhuǎn)化"這樣的多階段的應(yīng)用中設(shè)計(jì)全局優(yōu)化模型截酷。
思考:這篇文章把CTV和CVR進(jìn)行同時建模,在其他的業(yè)務(wù)場景乾戏,可以進(jìn)行擴(kuò)展這個模型迂苛。例如在實(shí)際生產(chǎn)中經(jīng)常遇到拉新的場景,每一個新用戶帶來的價值可能是不同的鼓择,這個序列行為可能變成廣告展示->點(diǎn)擊->注冊->購買商品->復(fù)購\流失\作弊->促活\風(fēng)控等三幻,可以適當(dāng)?shù)臄U(kuò)展網(wǎng)絡(luò)(ESMM是2個)。另外文章中通過乘法避免了除法中的很小的數(shù)值問題呐能,類似的方法還有拉普拉斯修正念搬,這個也是一個不錯的方法。