是一片非常好文删窒,特意記錄下來供以后參閱造垛。
記錄自:https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651751586&idx=1&sn=a61c9da125e9b7e68473b32e0278b0ea&chksm=bd125def8a65d4f9d20b682345365d5001e9c863d5046acf683da6116b265d168c0340754fc9&scene=21#wechat_redirect
近年來,BERT等Transformer模型大放異彩姻乓,在搜索推薦系統(tǒng)應(yīng)用也成為業(yè)界的一種潮流嵌溢。美美今天介紹的這篇文章,將分享Transformer在美團(tuán)搜索排序上的實(shí)踐經(jīng)驗(yàn)蹋岩。
引言
美團(tuán)搜索是美團(tuán) App 連接用戶與商家的一種重要方式赖草,而排序策略則是搜索鏈路的關(guān)鍵環(huán)節(jié),對(duì)搜索展示效果起著至關(guān)重要的效果剪个。目前秧骑,美團(tuán)的搜索排序流程為多層排序,分別是粗排扣囊、精排乎折、異構(gòu)排序等笆檀,多層排序的流程主要是為了平衡效果和性能盒至。搜索核心精排策略是 DNN 模型,美團(tuán)搜索始終貼近業(yè)務(wù)樱衷,并且結(jié)合先進(jìn)技術(shù)酒唉,從特征、模型結(jié)構(gòu)痪伦、優(yōu)化目標(biāo)角度對(duì)排序效果進(jìn)行了全面的優(yōu)化。
近些年网沾,基于 Transformer[1] 的一些 NLP 模型大放光彩,比如 BERT[2] 等等(可參考《美團(tuán)BERT的探索和實(shí)踐》)桦山,將 Transformer 結(jié)構(gòu)應(yīng)用于搜索推薦系統(tǒng)也成為業(yè)界的一個(gè)潮流。比如應(yīng)用于對(duì) CTR 預(yù)估模型進(jìn)行特征組合的 AutoInt[3]醋旦、行為序列建模的 BST[4] 以及重排序模型 PRM[5]恒水,這些工作都證明了 Transformer 引入搜索推薦領(lǐng)域能取得不錯(cuò)的效果,所以美團(tuán)搜索核心排序也在 Transformer 上進(jìn)行了相關(guān)的探索饲齐。
本文旨在分享 Transformer 在美團(tuán)搜索排序上的實(shí)踐經(jīng)驗(yàn)钉凌。內(nèi)容會(huì)分為以下三個(gè)部分:第一部分對(duì) Transformer 進(jìn)行簡單介紹,第二部分會(huì)介紹 Transfomer 在美團(tuán)搜索排序上的應(yīng)用以及實(shí)踐經(jīng)驗(yàn)捂人,最后一部分是總結(jié)與展望甩骏。希望能對(duì)大家有所幫助和啟發(fā)。
Transformer 簡介
Transformer 是谷歌在論文《Attention is all you need》[1] 中提出來解決 Sequence to Sequence 問題的模型先慷,其本質(zhì)上是一個(gè)編解碼(Encoder-Decoder )結(jié)構(gòu)饮笛,編碼器 Encoder 由 6 個(gè)編碼 block 組成,Encoder 中的每個(gè) block 包含 Multi-Head Attention 和 FFN(Feed-Forward Network)论熙;同樣解碼器 Decoder 也是 6 個(gè)解碼 block 組成福青,每個(gè) block 包含 Multi-Head Attention、Encoder-Decoder Attention 和 FFN脓诡。具體結(jié)構(gòu)如圖 1 所示无午,其詳細(xì)的介紹可參考文獻(xiàn)[1,6]。
圖1 Transformer 結(jié)構(gòu)示意圖
考慮到后續(xù)內(nèi)容出現(xiàn)的 Transformer Layer 就是 Transformer 的編碼層祝谚,這里先對(duì)它做簡單的介紹宪迟。它主要由以下兩部分組成。
Multi-Head Attention
Multi-Head Attention 實(shí)際上是 h 個(gè) Self-Attention 的集成交惯, h 代表頭的個(gè)數(shù)次泽。其中 Self-Attention 的計(jì)算公式如下:
其中穿仪,Q代表查詢,K代表鍵意荤,V代表數(shù)值啊片。
在我們的應(yīng)用實(shí)踐中玖像,原始輸入是一系列 Embedding 向量構(gòu)成的矩陣 E,矩陣 E 首先通過線性投影:
得到三個(gè)矩陣:
然后將投影后的矩陣輸入到 Multi-Head Attention。計(jì)算公式如下:
Point-wise Feed-Forward Networks
該模塊是為了提高模型的非線性能力提出來的瞒窒,它就是全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)根竿,計(jì)算公式如下:
Transformer Layer 就是通過這種自注意力機(jī)制層和普通非線性層來實(shí)現(xiàn)對(duì)輸入信號(hào)的編碼寇壳,得到信號(hào)的表示壳炎。
美團(tuán)搜索排序Transformer實(shí)踐經(jīng)驗(yàn)
Transformer 在美團(tuán)搜索排序上的實(shí)踐主要分以下三個(gè)部分:第一部分是特征工程逼侦,第二部分是行為序列建模,第三部分是重排序铲球。下面會(huì)逐一進(jìn)行詳細(xì)介紹稼病。
特征工程
在搜索排序系統(tǒng)中,模型的輸入特征維度高但稀疏性很強(qiáng)然走,而準(zhǔn)確的交叉特征對(duì)模型的效果又至關(guān)重要芍瑞。所以尋找一種高效的特征提取方式就變得十分重要拆檬,我們借鑒 AutoInt[3] 的方法,采用 Transformer Layer 進(jìn)行特征的高階組合码泛。
模型結(jié)構(gòu)
我們的模型結(jié)構(gòu)參考 AutoInt[3] 結(jié)構(gòu)澄耍,但在實(shí)踐中齐莲,根據(jù)美團(tuán)搜索的數(shù)據(jù)特點(diǎn)选酗,我們對(duì)模型結(jié)構(gòu)做了一些調(diào)整芒填,如下圖 2 所示:
圖2 Transformer & Deep 結(jié)構(gòu)示意圖
相比 AutoInt[3],該結(jié)構(gòu)有以下不同:
保留將稠密特征和離散特征的 Embedding 送入到 MLP 網(wǎng)絡(luò)闷祥,以隱式的方式學(xué)習(xí)其非線性表達(dá)凯砍。
Transformer Layer 部分悟衩,不是送入所有特征的 Embedding栓拜,而是基于人工經(jīng)驗(yàn)選擇了部分特征的 Embedding菱属,第一點(diǎn)是因?yàn)槊缊F(tuán)搜索場(chǎng)景特征的維度高纽门,全輸入進(jìn)去會(huì)提高模型的復(fù)雜度赏陵,導(dǎo)致訓(xùn)練和預(yù)測(cè)都很慢;第二點(diǎn)是缕溉,所有特征的 Embedding 維度不完全相同证鸥,也不適合一起輸入到 Transformer Layer 枉层。
Embedding Layer 部分:眾所周知在 CTR 預(yù)估中鸟蜡,除了大規(guī)模稀疏 ID 特征,稠密類型的統(tǒng)計(jì)特征也是非常有用的特征跳座,所以這部分將所有的稠密特征和稀疏 ID 特征都轉(zhuǎn)換成 Embedding 表示疲眷。
Transformer 部分:針對(duì)用戶行為序列咪橙、商戶 美侦、品類 仆潮、地理位置等 Embedding 表示中燥,使用 Transformer Layer 來顯示學(xué)習(xí)這些特征的交叉關(guān)系薪寓。
MLP 部分:考慮到 MLP 具有很強(qiáng)的隱式交叉能力怜跑,將所有特征的 Embedding 表示 concat 一起輸入到 MLP性芬。
實(shí)踐效果及經(jīng)驗(yàn)
效果:離線效果提升植锉,線上 QV_CTR 效果波動(dòng)俊庇。
經(jīng)驗(yàn):
三層 Transformer 編碼層效果比較好暇赤。
調(diào)節(jié)多頭注意力的“頭”數(shù)對(duì)效果影響不大 鞋囊。
Transformer 編碼層輸出的 Embedding 大小對(duì)結(jié)果影響不大溜腐。
Transformer 和 MLP 融合的時(shí)候挺益,最后結(jié)果融合和先 concat 再接一個(gè)全連接層效果差不多乘寒。
行為序列建模
理解用戶是搜索排序中一個(gè)非常重要的問題伞辛。過去蚤氏,我們對(duì)訓(xùn)練數(shù)據(jù)研究發(fā)現(xiàn)竿滨,在訓(xùn)練數(shù)據(jù)量很大的情況下毁葱,item 的大部分信息都可以被 ID 的 Embedding 向量進(jìn)行表示贰剥,但是用戶 ID 在訓(xùn)練數(shù)據(jù)中是十分稀疏的柱告,用戶 ID 很容易導(dǎo)致模型過擬合,所以需要大量的泛化特征來較好的表達(dá)用戶葵袭。這些泛化特征可以分為兩類:一類是偏靜態(tài)的特征坡锡,例如用戶的基本屬性(年齡鹉勒、性別禽额、職業(yè)等等)特征、長期偏好(品類藻丢、價(jià)格等等)特征悠反;另一類是動(dòng)態(tài)變化的特征斋否,例如刻畫用戶興趣的實(shí)時(shí)行為序列特征如叼。而用戶實(shí)時(shí)行為特征能夠明顯加強(qiáng)不同樣本之間的區(qū)分度笼恰,所以在模型中優(yōu)化用戶行為序列建模是讓模型更好理解用戶的關(guān)鍵環(huán)節(jié)社证。
目前追葡,主流方法是采用對(duì)用戶行為序列中的 item 進(jìn)行 Sum-pooling 或者 Mean-pooling 后的結(jié)果來表達(dá)用戶的興趣匀钧,這種假設(shè)所有行為內(nèi)的 item 對(duì)用戶的興趣都是等價(jià)的之斯,因而會(huì)引入一些噪聲佑刷。尤其是在美團(tuán)搜索這種交互場(chǎng)景,這種假設(shè)往往是不能很好地進(jìn)行建模來表達(dá)用戶興趣麦萤。
近年來频鉴,在搜索推薦算法領(lǐng)域藕甩,針對(duì)用戶行為序列建模取得了重要的進(jìn)展:DIN 引入注意力機(jī)制狭莱,考慮行為序列中不同 item 對(duì)當(dāng)前預(yù)測(cè) item 有不同的影響[7]默怨;而 DIEN 的提出匙睹,解決 DIN 無法捕捉用戶興趣動(dòng)態(tài)變化的缺點(diǎn)[8]济竹。DSIN 針對(duì) DIN 和 DIEN 沒有考慮用戶歷史行為中的 Session 信息痕檬,因?yàn)槊總€(gè) Session 中的行為是相近的,而在不同 Session 之間的差別很大送浊,它在 Session 層面上對(duì)用戶的行為序列進(jìn)行建模[9]梦谜;BST 模型通過 Transformer 模型來捕捉用戶歷史行為序列中的各個(gè) item 的關(guān)聯(lián)特征,與此同時(shí),加入待預(yù)測(cè)的 item 來達(dá)到抽取行為序列中的商品與待推薦商品之間的相關(guān)性[4]唁桩。這些已經(jīng)發(fā)表過的工作都具有很大的價(jià)值闭树。接下來,我們主要從美團(tuán)搜索的實(shí)踐業(yè)務(wù)角度出發(fā)荒澡,來介紹 Transformer 在用戶行為序列建模上的實(shí)踐。
模型結(jié)構(gòu)
在 Transformer 行為序列建模中鸵赫,我們迭代了三個(gè)版本的模型結(jié)構(gòu)膨疏,下面會(huì)依次進(jìn)行介紹饲帅。
模型主要構(gòu)成:所有特征(user 維度、item 維度、query 維度、上下文維度、交叉維度)經(jīng)過底層 Embedding Layer 得到對(duì)應(yīng)的 Embedding 表示侨颈;建模用戶行為序列得到用戶的 Embedding 表示扛拨;所有 Embedding concat 一起送入到三層的 MLP 網(wǎng)絡(luò)计盒。
第一個(gè)版本:因?yàn)樵瓉淼?Sum-pooling 建模方式?jīng)]有考慮行為序列內(nèi)部各行為的關(guān)系,而 Transformer 又被證明能夠很好地建模序列內(nèi)部之間的關(guān)系,所以我們嘗試直接將行為序列輸入到 Transformer Layer,其模型結(jié)構(gòu)如圖3 所示:
圖3 Transformer 行為序列建模
行為序列建模模塊
輸入部分
分為短期行為序列和長期行為序列。
行為序列內(nèi)部的每個(gè)行為原始表示是由商戶 ID踩窖,以及一些商戶泛化信息的 Embedding 進(jìn)行 concat 組成啥供。
每段行為序列的長度固定贷屎,不足部分使用零向量進(jìn)行補(bǔ)齊。
輸出部分
對(duì) Transformer Layer 輸出的向量做 Sum-pooling (這里嘗試過Mean-pooling同眯、concat唠粥,效果差不多)得到行為序列的最終 Embedding 表示官份。
該版本的離線指標(biāo)相比線上 Base(行為序列 Sum-pooling) 模型持平钠右,盡管該版本沒有取得離線提升狠毯,但是我們繼續(xù)嘗試優(yōu)化。
第二個(gè)版本:第一個(gè)版本存在一個(gè)問題羡蛾,對(duì)所有的 item 打分的時(shí)候捐迫,用戶的 Embedding 表示都是一樣的萌丈,所以參考 BST[4],在第一個(gè)版本的基礎(chǔ)上引入 Target-item,這樣可以學(xué)習(xí)行為序列內(nèi)部的 item 與 Target-item 的相關(guān)性罚勾,這樣在對(duì)不同的 item 打分時(shí)吭狡,用戶的 Embedding 表示是不一樣的,其模型結(jié)構(gòu)如下圖4 所示:
圖4 Transformer 行為序列建模
該版本的離線指標(biāo)相比線上 Base(行為序列 Sum-pooling) 模型提升蟹略,上線發(fā)現(xiàn)效果波動(dòng),我們?nèi)匀粵]有灰心,繼續(xù)迭代優(yōu)化。
第三個(gè)版本:和第二個(gè)版本一樣,同樣針對(duì)第一個(gè)版本存在的對(duì)不同 item 打分展哭,用戶 Embedding 表示一樣的問題,嘗試在第一個(gè)版本引入 Transformer 的基礎(chǔ)上棵介,疊加 DIN[7] 模型里面的 Attention-pooling 機(jī)制來解決該問題邮辽,其模型結(jié)構(gòu)如圖5 所示:
圖5 Transformer 行為序列建模
該版本的離線指標(biāo)相比第二個(gè)版本模型有提升,上線效果相比線上 Base(行為序列 Sum-pooling)有穩(wěn)定提升蒲拉。
實(shí)踐效果及經(jīng)驗(yàn)
效果:第三個(gè)版本(Transformer + Attention-pooling)模型的線上 QV_CTR 和 NDCG 提升最為顯著蚯根。
經(jīng)驗(yàn):
Transformer 編碼為什么有效?Transformer 編碼層內(nèi)部的自注意力機(jī)制,能夠?qū)π蛄袃?nèi) item 的相互關(guān)系進(jìn)行有效的建模來實(shí)現(xiàn)更好的表達(dá)颅拦,并且我們離線實(shí)驗(yàn)不加 Transformer 編碼層的 Attention-pooling,發(fā)現(xiàn)離線 NDCG 下降教藻,從實(shí)驗(yàn)上證明了 Transformer 編碼有效距帅。
Transformer 編碼為什么優(yōu)于 GRU ?忽略 GRU 的性能差于 Transformer括堤;我們做過實(shí)驗(yàn)將行為序列長度的上限往下調(diào)碌秸,Transformer 的效果相比 GRU 的效果提升在縮小,但是整體還是行為序列的長度越大越好悄窃,所以Transformer 相比 GRU 在長距離時(shí)讥电,特征捕獲能力更強(qiáng)。
位置編碼(****Pos-Encoding****)的影響:我們?cè)囘^加 Transformer 里面原生的正余弦以及距當(dāng)前預(yù)測(cè)時(shí)間的時(shí)間間隔的位置編碼都無效果轧抗,分析應(yīng)該是我們?cè)谔幚硇袨樾蛄械臅r(shí)候恩敌,已經(jīng)將序列切割成不同時(shí)間段,一定程度上包含了時(shí)序位置信息横媚。為了驗(yàn)證這個(gè)想法纠炮,我們做了僅使用一個(gè)長序列的實(shí)驗(yàn)(對(duì)照組不加位置編碼,實(shí)驗(yàn)組加位置編碼灯蝴,離線 NDCG 有提升)恢口,這驗(yàn)證了我們的猜測(cè)。
Transformer 編碼層不需要太多穷躁,層數(shù)過多導(dǎo)致模型過于復(fù)雜耕肩,模型收斂慢效果不好。
調(diào)節(jié)多頭注意力的“頭”數(shù)對(duì)效果影響不大问潭。
重排序
在引言中猿诸,我們提到美團(tuán)搜索排序過去做了很多優(yōu)化工作,但是大部分都是集中在 PointWise 的排序策略上睦授,未能充分利用商戶展示列表的上下文信息來優(yōu)化排序两芳。一種直接利用上下文信息優(yōu)化排序的方法是對(duì)精排的結(jié)果進(jìn)行重排,這可以抽象建模成一個(gè)序列(排序序列)生成另一個(gè)序列(重排序列)的過程去枷,自然聯(lián)想到可以使用 NLP 領(lǐng)域常用的 Sequence to Sequence 建模方法進(jìn)行重排序建模怖辆。
目前業(yè)界已有一些重排序的工作,比如使用 RNN 重排序[10-11]删顶、Transformer 重排序[5]竖螃。考慮到 Transformer 相比 RNN 有以下兩個(gè)優(yōu)勢(shì):(1)兩個(gè) item 的相關(guān)性計(jì)算不受距離的影響 (2)Transformer 可以并行計(jì)算逗余,處理效率比 RNN 更高特咆;所以我們選擇 Transformer 對(duì)重排序進(jìn)行建模。
模型結(jié)構(gòu)
模型結(jié)構(gòu)參考了 PRM[5],結(jié)合美團(tuán)搜索實(shí)踐的情況腻格,重排序模型相比 PRM 做了一些調(diào)整画拾。具體結(jié)構(gòu)如圖 6 所示,其中 D1菜职,D2青抛,…,Dn 是重排商戶集合酬核,最后根據(jù)模型的輸出 Score(D1)蜜另,Score(D2),…嫡意,Score(Dn)按照從大到小進(jìn)行排序举瑰。
圖6 Transformer 重排序
主要由以下幾個(gè)部分構(gòu)成:
特征向量生成:由原始特征(user、item蔬螟、交叉等維度的稠密統(tǒng)計(jì)特征)經(jīng)過一層全連接的輸出進(jìn)行表示此迅。
輸入層:其中 X 表示商戶的特征向量,P 表示商戶的位置編碼促煮,將特征向量 X 與位置向量 P 進(jìn)行 concat 作為最終輸入邮屁。
Transformer 編碼層:一層 Multi-Head Attention 和 FFN 的。
輸出層:一層全連接網(wǎng)絡(luò)得到打分輸出 Score菠齿。
模型細(xì)節(jié):
特征向量生成部分和重排序模型是一個(gè)整體佑吝,聯(lián)合端到端訓(xùn)練。
訓(xùn)練和預(yù)測(cè)階段固定選擇 TopK 進(jìn)行重排绳匀,遇到某些請(qǐng)求曝光 item 集不夠 TopK 的情況下芋忿,在末尾補(bǔ)零向量進(jìn)行對(duì)齊。
實(shí)踐效果及經(jīng)驗(yàn)
效果:Transformer 重排序?qū)€上 NDCG 和 QV_CTR 均穩(wěn)定正向提升疾棵。
經(jīng)驗(yàn):
重排序大小如何選擇戈钢?考慮到線上性能問題,重排序的候選集不能過大是尔,我們分析數(shù)據(jù)發(fā)現(xiàn) 95% 的用戶瀏覽深度不超過 10殉了,所以我們選擇對(duì) Top10 的商戶進(jìn)行重排。
位置編碼向量的重要性:這個(gè)在重排序中很重要拟枚,需要位置編碼向量來刻畫位置薪铜,更好的讓模型學(xué)習(xí)出上下文信息,離線實(shí)驗(yàn)發(fā)現(xiàn)去掉位置向量 NDCG@10 下降明顯恩溅。
性能優(yōu)化:最初選擇商戶全部的精排特征作為輸入隔箍,發(fā)現(xiàn)線上預(yù)測(cè)時(shí)間太慢;后面進(jìn)行特征重要性評(píng)估脚乡,篩選出部分重要特征作為輸入蜒滩,使得線上預(yù)測(cè)性能滿足上線要求。
調(diào)節(jié)多頭注意力的“頭”數(shù)對(duì)效果影響不大。
總結(jié)和展望
2019 年底俯艰,美團(tuán)搜索對(duì) Transformer 在排序中的應(yīng)用進(jìn)行了一些探索捡遍,既取得了一些技術(shù)沉淀也在線上指標(biāo)上取得比較明顯的收益,不過未來還有很多的技術(shù)可以探索蟆炊。
在特征工程上稽莉,引入 Transformer 層進(jìn)行高階特征組合雖然沒有帶來收益,但是在這個(gè)過程中也再次驗(yàn)證了沒有萬能的模型對(duì)所有場(chǎng)景數(shù)據(jù)有效涩搓。目前搜索團(tuán)隊(duì)也在探索在特征層面應(yīng)用 BERT 對(duì)精排模型進(jìn)行優(yōu)化。
在行為序列建模上劈猪,目前的工作集中在對(duì)已有的用戶行為數(shù)據(jù)進(jìn)行建模來理解用戶昧甘,未來要想更加深入全面的認(rèn)識(shí)用戶,更加豐富的用戶數(shù)據(jù)必不可少战得。當(dāng)有了這些數(shù)據(jù)后如何進(jìn)行利用充边,又是一個(gè)可以探索的技術(shù)點(diǎn),比如圖神經(jīng)網(wǎng)絡(luò)建模等等常侦。
在重排序建模上浇冰,目前引入 Transformer 取得了一些效果,同時(shí)隨著強(qiáng)化學(xué)習(xí)的普及聋亡,在美團(tuán)這種用戶與系統(tǒng)強(qiáng)交互的場(chǎng)景下肘习,用戶的行為反饋蘊(yùn)含著很大的研究價(jià)值,未來利用用戶的實(shí)時(shí)反饋信息進(jìn)行調(diào)序是個(gè)值得探索的方向坡倔。例如漂佩,根據(jù)用戶上一刻的瀏覽反饋,對(duì)用戶下一刻的展示結(jié)果進(jìn)行調(diào)序罪塔。
除了上面提到的三點(diǎn)投蝉,考慮到美團(tuán)搜索上承載著多個(gè)業(yè)務(wù),比如美食征堪、到綜瘩缆、酒店、旅游等等佃蚜,各個(gè)業(yè)務(wù)之間既有共性也有自己獨(dú)有的特性庸娱,并且除了優(yōu)化用戶體驗(yàn),也需要滿足業(yè)務(wù)需求爽锥。為了更好的對(duì)這一塊建模優(yōu)化涌韩, 我們也正在探索 Partition Model 和多目標(biāo)相關(guān)的工作,歡迎業(yè)界同行一起交流氯夷。
參考資料
[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv:1810.04805, 2018.
[3] Song W, Shi C, Xiao Z, et al. Autoint: Automatic feature interaction learning via self-attentive neural networks[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019: 1161-1170.
[4] Chen Q, Zhao H, Li W, et al. Behavior sequence transformer for e-commerce recommendation in Alibaba[C]//Proceedings of the 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data. 2019: 1-4.
[5] Pei C, Zhang Y, Zhang Y, et al. Personalized re-ranking for recommendation[C]//Proceedings of the 13th ACM Conference on Recommender Systems. 2019: 3-11.
[6] http://jalammar.github.io/illustrated-transformer/
[7] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018: 1059-1068.
[8] Zhou G, Mou N, Fan Y, et al. Deep interest evolution network for click-through rate prediction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 5941-5948.
[9] Feng Y, Lv F, Shen W, et al. Deep Session Interest Network for Click-Through Rate Prediction[J]. arXiv:1905.06482, 2019.
[10] Zhuang T, Ou W, Wang Z. Globally optimized mutual influence aware ranking in e-commerce search[J]. arXiv:1805.08524, 2018.
[11] Ai Q, Bi K, Guo J, et al. Learning a deep listwise context model for ranking refinement[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 135-144.
作者簡介
肖垚臣樱,家琪,周翔,陳勝雇毫,云森玄捕,永超,仲遠(yuǎn)等棚放,均來自美團(tuán) AI 平臺(tái)搜索與 NLP 部枚粘。