Transformer 在美團(tuán)搜索排序中的實(shí)踐

是一片非常好文删窒,特意記錄下來供以后參閱造垛。
記錄自:https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651751586&idx=1&sn=a61c9da125e9b7e68473b32e0278b0ea&chksm=bd125def8a65d4f9d20b682345365d5001e9c863d5046acf683da6116b265d168c0340754fc9&scene=21#wechat_redirect

近年來,BERT等Transformer模型大放異彩姻乓,在搜索推薦系統(tǒng)應(yīng)用也成為業(yè)界的一種潮流嵌溢。美美今天介紹的這篇文章,將分享Transformer在美團(tuán)搜索排序上的實(shí)踐經(jīng)驗(yàn)蹋岩。

引言

美團(tuán)搜索是美團(tuán) App 連接用戶與商家的一種重要方式赖草,而排序策略則是搜索鏈路的關(guān)鍵環(huán)節(jié),對(duì)搜索展示效果起著至關(guān)重要的效果剪个。目前秧骑,美團(tuán)的搜索排序流程為多層排序,分別是粗排扣囊、精排乎折、異構(gòu)排序等笆檀,多層排序的流程主要是為了平衡效果和性能盒至。搜索核心精排策略是 DNN 模型,美團(tuán)搜索始終貼近業(yè)務(wù)樱衷,并且結(jié)合先進(jìn)技術(shù)酒唉,從特征、模型結(jié)構(gòu)痪伦、優(yōu)化目標(biāo)角度對(duì)排序效果進(jìn)行了全面的優(yōu)化。

近些年网沾,基于 Transformer[1] 的一些 NLP 模型大放光彩,比如 BERT[2] 等等(可參考《美團(tuán)BERT的探索和實(shí)踐》)桦山,將 Transformer 結(jié)構(gòu)應(yīng)用于搜索推薦系統(tǒng)也成為業(yè)界的一個(gè)潮流。比如應(yīng)用于對(duì) CTR 預(yù)估模型進(jìn)行特征組合的 AutoInt[3]醋旦、行為序列建模的 BST[4] 以及重排序模型 PRM[5]恒水,這些工作都證明了 Transformer 引入搜索推薦領(lǐng)域能取得不錯(cuò)的效果,所以美團(tuán)搜索核心排序也在 Transformer 上進(jìn)行了相關(guān)的探索饲齐。

本文旨在分享 Transformer 在美團(tuán)搜索排序上的實(shí)踐經(jīng)驗(yàn)钉凌。內(nèi)容會(huì)分為以下三個(gè)部分:第一部分對(duì) Transformer 進(jìn)行簡單介紹,第二部分會(huì)介紹 Transfomer 在美團(tuán)搜索排序上的應(yīng)用以及實(shí)踐經(jīng)驗(yàn)捂人,最后一部分是總結(jié)與展望甩骏。希望能對(duì)大家有所幫助和啟發(fā)。

Transformer 簡介

Transformer 是谷歌在論文《Attention is all you need》[1] 中提出來解決 Sequence to Sequence 問題的模型先慷,其本質(zhì)上是一個(gè)編解碼(Encoder-Decoder )結(jié)構(gòu)饮笛,編碼器 Encoder 由 6 個(gè)編碼 block 組成,Encoder 中的每個(gè) block 包含 Multi-Head Attention 和 FFN(Feed-Forward Network)论熙;同樣解碼器 Decoder 也是 6 個(gè)解碼 block 組成福青,每個(gè) block 包含 Multi-Head Attention、Encoder-Decoder Attention 和 FFN脓诡。具體結(jié)構(gòu)如圖 1 所示无午,其詳細(xì)的介紹可參考文獻(xiàn)[1,6]。

圖片

圖1 Transformer 結(jié)構(gòu)示意圖

考慮到后續(xù)內(nèi)容出現(xiàn)的 Transformer Layer 就是 Transformer 的編碼層祝谚,這里先對(duì)它做簡單的介紹宪迟。它主要由以下兩部分組成。

Multi-Head Attention

Multi-Head Attention 實(shí)際上是 h 個(gè) Self-Attention 的集成交惯, h 代表頭的個(gè)數(shù)次泽。其中 Self-Attention 的計(jì)算公式如下:

圖片

其中穿仪,Q代表查詢,K代表鍵意荤,V代表數(shù)值啊片。

在我們的應(yīng)用實(shí)踐中玖像,原始輸入是一系列 Embedding 向量構(gòu)成的矩陣 E,矩陣 E 首先通過線性投影:

image.gif

得到三個(gè)矩陣:

圖片

然后將投影后的矩陣輸入到 Multi-Head Attention。計(jì)算公式如下:

圖片

Point-wise Feed-Forward Networks

該模塊是為了提高模型的非線性能力提出來的瞒窒,它就是全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)根竿,計(jì)算公式如下:

圖片

Transformer Layer 就是通過這種自注意力機(jī)制層和普通非線性層來實(shí)現(xiàn)對(duì)輸入信號(hào)的編碼寇壳,得到信號(hào)的表示壳炎。

美團(tuán)搜索排序Transformer實(shí)踐經(jīng)驗(yàn)

Transformer 在美團(tuán)搜索排序上的實(shí)踐主要分以下三個(gè)部分:第一部分是特征工程逼侦,第二部分是行為序列建模,第三部分是重排序铲球。下面會(huì)逐一進(jìn)行詳細(xì)介紹稼病。

特征工程

在搜索排序系統(tǒng)中,模型的輸入特征維度高但稀疏性很強(qiáng)然走,而準(zhǔn)確的交叉特征對(duì)模型的效果又至關(guān)重要芍瑞。所以尋找一種高效的特征提取方式就變得十分重要拆檬,我們借鑒 AutoInt[3] 的方法,采用 Transformer Layer 進(jìn)行特征的高階組合码泛。

模型結(jié)構(gòu)

我們的模型結(jié)構(gòu)參考 AutoInt[3] 結(jié)構(gòu)澄耍,但在實(shí)踐中齐莲,根據(jù)美團(tuán)搜索的數(shù)據(jù)特點(diǎn)选酗,我們對(duì)模型結(jié)構(gòu)做了一些調(diào)整芒填,如下圖 2 所示:

圖片

圖2 Transformer & Deep 結(jié)構(gòu)示意圖

相比 AutoInt[3],該結(jié)構(gòu)有以下不同:

  • 保留將稠密特征和離散特征的 Embedding 送入到 MLP 網(wǎng)絡(luò)闷祥,以隱式的方式學(xué)習(xí)其非線性表達(dá)凯砍。

  • Transformer Layer 部分悟衩,不是送入所有特征的 Embedding栓拜,而是基于人工經(jīng)驗(yàn)選擇了部分特征的 Embedding菱属,第一點(diǎn)是因?yàn)槊缊F(tuán)搜索場(chǎng)景特征的維度高纽门,全輸入進(jìn)去會(huì)提高模型的復(fù)雜度赏陵,導(dǎo)致訓(xùn)練和預(yù)測(cè)都很慢;第二點(diǎn)是缕溉,所有特征的 Embedding 維度不完全相同证鸥,也不適合一起輸入到 Transformer Layer 枉层。

Embedding Layer 部分:眾所周知在 CTR 預(yù)估中鸟蜡,除了大規(guī)模稀疏 ID 特征,稠密類型的統(tǒng)計(jì)特征也是非常有用的特征跳座,所以這部分將所有的稠密特征和稀疏 ID 特征都轉(zhuǎn)換成 Embedding 表示疲眷。

Transformer 部分:針對(duì)用戶行為序列咪橙、商戶 美侦、品類 仆潮、地理位置等 Embedding 表示中燥,使用 Transformer Layer 來顯示學(xué)習(xí)這些特征的交叉關(guān)系薪寓。

MLP 部分:考慮到 MLP 具有很強(qiáng)的隱式交叉能力怜跑,將所有特征的 Embedding 表示 concat 一起輸入到 MLP性芬。

實(shí)踐效果及經(jīng)驗(yàn)

效果:離線效果提升植锉,線上 QV_CTR 效果波動(dòng)俊庇。

經(jīng)驗(yàn):

  • 三層 Transformer 編碼層效果比較好暇赤。

  • 調(diào)節(jié)多頭注意力的“頭”數(shù)對(duì)效果影響不大 鞋囊。

  • Transformer 編碼層輸出的 Embedding 大小對(duì)結(jié)果影響不大溜腐。

  • Transformer 和 MLP 融合的時(shí)候挺益,最后結(jié)果融合和先 concat 再接一個(gè)全連接層效果差不多乘寒。

行為序列建模

理解用戶是搜索排序中一個(gè)非常重要的問題伞辛。過去蚤氏,我們對(duì)訓(xùn)練數(shù)據(jù)研究發(fā)現(xiàn)竿滨,在訓(xùn)練數(shù)據(jù)量很大的情況下毁葱,item 的大部分信息都可以被 ID 的 Embedding 向量進(jìn)行表示贰剥,但是用戶 ID 在訓(xùn)練數(shù)據(jù)中是十分稀疏的柱告,用戶 ID 很容易導(dǎo)致模型過擬合,所以需要大量的泛化特征來較好的表達(dá)用戶葵袭。這些泛化特征可以分為兩類:一類是偏靜態(tài)的特征坡锡,例如用戶的基本屬性(年齡鹉勒、性別禽额、職業(yè)等等)特征、長期偏好(品類藻丢、價(jià)格等等)特征悠反;另一類是動(dòng)態(tài)變化的特征斋否,例如刻畫用戶興趣的實(shí)時(shí)行為序列特征如叼。而用戶實(shí)時(shí)行為特征能夠明顯加強(qiáng)不同樣本之間的區(qū)分度笼恰,所以在模型中優(yōu)化用戶行為序列建模是讓模型更好理解用戶的關(guān)鍵環(huán)節(jié)社证。

目前追葡,主流方法是采用對(duì)用戶行為序列中的 item 進(jìn)行 Sum-pooling 或者 Mean-pooling 后的結(jié)果來表達(dá)用戶的興趣匀钧,這種假設(shè)所有行為內(nèi)的 item 對(duì)用戶的興趣都是等價(jià)的之斯,因而會(huì)引入一些噪聲佑刷。尤其是在美團(tuán)搜索這種交互場(chǎng)景,這種假設(shè)往往是不能很好地進(jìn)行建模來表達(dá)用戶興趣麦萤。

近年來频鉴,在搜索推薦算法領(lǐng)域藕甩,針對(duì)用戶行為序列建模取得了重要的進(jìn)展:DIN 引入注意力機(jī)制狭莱,考慮行為序列中不同 item 對(duì)當(dāng)前預(yù)測(cè) item 有不同的影響[7]默怨;而 DIEN 的提出匙睹,解決 DIN 無法捕捉用戶興趣動(dòng)態(tài)變化的缺點(diǎn)[8]济竹。DSIN 針對(duì) DIN 和 DIEN 沒有考慮用戶歷史行為中的 Session 信息痕檬,因?yàn)槊總€(gè) Session 中的行為是相近的,而在不同 Session 之間的差別很大送浊,它在 Session 層面上對(duì)用戶的行為序列進(jìn)行建模[9]梦谜;BST 模型通過 Transformer 模型來捕捉用戶歷史行為序列中的各個(gè) item 的關(guān)聯(lián)特征,與此同時(shí),加入待預(yù)測(cè)的 item 來達(dá)到抽取行為序列中的商品與待推薦商品之間的相關(guān)性[4]唁桩。這些已經(jīng)發(fā)表過的工作都具有很大的價(jià)值闭树。接下來,我們主要從美團(tuán)搜索的實(shí)踐業(yè)務(wù)角度出發(fā)荒澡,來介紹 Transformer 在用戶行為序列建模上的實(shí)踐。

模型結(jié)構(gòu)

在 Transformer 行為序列建模中鸵赫,我們迭代了三個(gè)版本的模型結(jié)構(gòu)膨疏,下面會(huì)依次進(jìn)行介紹饲帅。

模型主要構(gòu)成:所有特征(user 維度、item 維度、query 維度、上下文維度、交叉維度)經(jīng)過底層 Embedding Layer 得到對(duì)應(yīng)的 Embedding 表示侨颈;建模用戶行為序列得到用戶的 Embedding 表示扛拨;所有 Embedding concat 一起送入到三層的 MLP 網(wǎng)絡(luò)计盒。

第一個(gè)版本:因?yàn)樵瓉淼?Sum-pooling 建模方式?jīng)]有考慮行為序列內(nèi)部各行為的關(guān)系,而 Transformer 又被證明能夠很好地建模序列內(nèi)部之間的關(guān)系,所以我們嘗試直接將行為序列輸入到 Transformer Layer,其模型結(jié)構(gòu)如圖3 所示:

圖片

圖3 Transformer 行為序列建模

行為序列建模模塊

輸入部分

  • 分為短期行為序列和長期行為序列。

  • 行為序列內(nèi)部的每個(gè)行為原始表示是由商戶 ID踩窖,以及一些商戶泛化信息的 Embedding 進(jìn)行 concat 組成啥供。

  • 每段行為序列的長度固定贷屎,不足部分使用零向量進(jìn)行補(bǔ)齊。

輸出部分

對(duì) Transformer Layer 輸出的向量做 Sum-pooling (這里嘗試過Mean-pooling同眯、concat唠粥,效果差不多)得到行為序列的最終 Embedding 表示官份。

該版本的離線指標(biāo)相比線上 Base(行為序列 Sum-pooling) 模型持平钠右,盡管該版本沒有取得離線提升狠毯,但是我們繼續(xù)嘗試優(yōu)化。

第二個(gè)版本:第一個(gè)版本存在一個(gè)問題羡蛾,對(duì)所有的 item 打分的時(shí)候捐迫,用戶的 Embedding 表示都是一樣的萌丈,所以參考 BST[4],在第一個(gè)版本的基礎(chǔ)上引入 Target-item,這樣可以學(xué)習(xí)行為序列內(nèi)部的 item 與 Target-item 的相關(guān)性罚勾,這樣在對(duì)不同的 item 打分時(shí)吭狡,用戶的 Embedding 表示是不一樣的,其模型結(jié)構(gòu)如下圖4 所示:

圖片

圖4 Transformer 行為序列建模

該版本的離線指標(biāo)相比線上 Base(行為序列 Sum-pooling) 模型提升蟹略,上線發(fā)現(xiàn)效果波動(dòng),我們?nèi)匀粵]有灰心,繼續(xù)迭代優(yōu)化。

第三個(gè)版本:和第二個(gè)版本一樣,同樣針對(duì)第一個(gè)版本存在的對(duì)不同 item 打分展哭,用戶 Embedding 表示一樣的問題,嘗試在第一個(gè)版本引入 Transformer 的基礎(chǔ)上棵介,疊加 DIN[7] 模型里面的 Attention-pooling 機(jī)制來解決該問題邮辽,其模型結(jié)構(gòu)如圖5 所示:

圖片

圖5 Transformer 行為序列建模

該版本的離線指標(biāo)相比第二個(gè)版本模型有提升,上線效果相比線上 Base(行為序列 Sum-pooling)有穩(wěn)定提升蒲拉。

實(shí)踐效果及經(jīng)驗(yàn)

效果:第三個(gè)版本(Transformer + Attention-pooling)模型的線上 QV_CTR 和 NDCG 提升最為顯著蚯根。

經(jīng)驗(yàn):

  • Transformer 編碼為什么有效?Transformer 編碼層內(nèi)部的自注意力機(jī)制,能夠?qū)π蛄袃?nèi) item 的相互關(guān)系進(jìn)行有效的建模來實(shí)現(xiàn)更好的表達(dá)颅拦,并且我們離線實(shí)驗(yàn)不加 Transformer 編碼層的 Attention-pooling,發(fā)現(xiàn)離線 NDCG 下降教藻,從實(shí)驗(yàn)上證明了 Transformer 編碼有效距帅。

  • Transformer 編碼為什么優(yōu)于 GRU ?忽略 GRU 的性能差于 Transformer括堤;我們做過實(shí)驗(yàn)將行為序列長度的上限往下調(diào)碌秸,Transformer 的效果相比 GRU 的效果提升在縮小,但是整體還是行為序列的長度越大越好悄窃,所以Transformer 相比 GRU 在長距離時(shí)讥电,特征捕獲能力更強(qiáng)。

  • 位置編碼(****Pos-Encoding****)的影響:我們?cè)囘^加 Transformer 里面原生的正余弦以及距當(dāng)前預(yù)測(cè)時(shí)間的時(shí)間間隔的位置編碼都無效果轧抗,分析應(yīng)該是我們?cè)谔幚硇袨樾蛄械臅r(shí)候恩敌,已經(jīng)將序列切割成不同時(shí)間段,一定程度上包含了時(shí)序位置信息横媚。為了驗(yàn)證這個(gè)想法纠炮,我們做了僅使用一個(gè)長序列的實(shí)驗(yàn)(對(duì)照組不加位置編碼,實(shí)驗(yàn)組加位置編碼灯蝴,離線 NDCG 有提升)恢口,這驗(yàn)證了我們的猜測(cè)。

  • Transformer 編碼層不需要太多穷躁,層數(shù)過多導(dǎo)致模型過于復(fù)雜耕肩,模型收斂慢效果不好。

  • 調(diào)節(jié)多頭注意力的“頭”數(shù)對(duì)效果影響不大问潭。

重排序

在引言中猿诸,我們提到美團(tuán)搜索排序過去做了很多優(yōu)化工作,但是大部分都是集中在 PointWise 的排序策略上睦授,未能充分利用商戶展示列表的上下文信息來優(yōu)化排序两芳。一種直接利用上下文信息優(yōu)化排序的方法是對(duì)精排的結(jié)果進(jìn)行重排,這可以抽象建模成一個(gè)序列(排序序列)生成另一個(gè)序列(重排序列)的過程去枷,自然聯(lián)想到可以使用 NLP 領(lǐng)域常用的 Sequence to Sequence 建模方法進(jìn)行重排序建模怖辆。

目前業(yè)界已有一些重排序的工作,比如使用 RNN 重排序[10-11]删顶、Transformer 重排序[5]竖螃。考慮到 Transformer 相比 RNN 有以下兩個(gè)優(yōu)勢(shì):(1)兩個(gè) item 的相關(guān)性計(jì)算不受距離的影響 (2)Transformer 可以并行計(jì)算逗余,處理效率比 RNN 更高特咆;所以我們選擇 Transformer 對(duì)重排序進(jìn)行建模。

模型結(jié)構(gòu)

模型結(jié)構(gòu)參考了 PRM[5],結(jié)合美團(tuán)搜索實(shí)踐的情況腻格,重排序模型相比 PRM 做了一些調(diào)整画拾。具體結(jié)構(gòu)如圖 6 所示,其中 D1菜职,D2青抛,…,Dn 是重排商戶集合酬核,最后根據(jù)模型的輸出 Score(D1)蜜另,Score(D2),…嫡意,Score(Dn)按照從大到小進(jìn)行排序举瑰。

image.gif

圖6 Transformer 重排序

主要由以下幾個(gè)部分構(gòu)成:

  • 特征向量生成:由原始特征(user、item蔬螟、交叉等維度的稠密統(tǒng)計(jì)特征)經(jīng)過一層全連接的輸出進(jìn)行表示此迅。

  • 輸入層:其中 X 表示商戶的特征向量,P 表示商戶的位置編碼促煮,將特征向量 X 與位置向量 P 進(jìn)行 concat 作為最終輸入邮屁。

  • Transformer 編碼層:一層 Multi-Head Attention 和 FFN 的。

  • 輸出層:一層全連接網(wǎng)絡(luò)得到打分輸出 Score菠齿。

模型細(xì)節(jié):

  • 特征向量生成部分和重排序模型是一個(gè)整體佑吝,聯(lián)合端到端訓(xùn)練。

  • 訓(xùn)練和預(yù)測(cè)階段固定選擇 TopK 進(jìn)行重排绳匀,遇到某些請(qǐng)求曝光 item 集不夠 TopK 的情況下芋忿,在末尾補(bǔ)零向量進(jìn)行對(duì)齊。

實(shí)踐效果及經(jīng)驗(yàn)

效果:Transformer 重排序?qū)€上 NDCG 和 QV_CTR 均穩(wěn)定正向提升疾棵。

經(jīng)驗(yàn):

  • 重排序大小如何選擇戈钢?考慮到線上性能問題,重排序的候選集不能過大是尔,我們分析數(shù)據(jù)發(fā)現(xiàn) 95% 的用戶瀏覽深度不超過 10殉了,所以我們選擇對(duì) Top10 的商戶進(jìn)行重排。

  • 位置編碼向量的重要性:這個(gè)在重排序中很重要拟枚,需要位置編碼向量來刻畫位置薪铜,更好的讓模型學(xué)習(xí)出上下文信息,離線實(shí)驗(yàn)發(fā)現(xiàn)去掉位置向量 NDCG@10 下降明顯恩溅。

  • 性能優(yōu)化:最初選擇商戶全部的精排特征作為輸入隔箍,發(fā)現(xiàn)線上預(yù)測(cè)時(shí)間太慢;后面進(jìn)行特征重要性評(píng)估脚乡,篩選出部分重要特征作為輸入蜒滩,使得線上預(yù)測(cè)性能滿足上線要求。

  • 調(diào)節(jié)多頭注意力的“頭”數(shù)對(duì)效果影響不大。

總結(jié)和展望

2019 年底俯艰,美團(tuán)搜索對(duì) Transformer 在排序中的應(yīng)用進(jìn)行了一些探索捡遍,既取得了一些技術(shù)沉淀也在線上指標(biāo)上取得比較明顯的收益,不過未來還有很多的技術(shù)可以探索蟆炊。

在特征工程上稽莉,引入 Transformer 層進(jìn)行高階特征組合雖然沒有帶來收益,但是在這個(gè)過程中也再次驗(yàn)證了沒有萬能的模型對(duì)所有場(chǎng)景數(shù)據(jù)有效涩搓。目前搜索團(tuán)隊(duì)也在探索在特征層面應(yīng)用 BERT 對(duì)精排模型進(jìn)行優(yōu)化。

在行為序列建模上劈猪,目前的工作集中在對(duì)已有的用戶行為數(shù)據(jù)進(jìn)行建模來理解用戶昧甘,未來要想更加深入全面的認(rèn)識(shí)用戶,更加豐富的用戶數(shù)據(jù)必不可少战得。當(dāng)有了這些數(shù)據(jù)后如何進(jìn)行利用充边,又是一個(gè)可以探索的技術(shù)點(diǎn),比如圖神經(jīng)網(wǎng)絡(luò)建模等等常侦。

在重排序建模上浇冰,目前引入 Transformer 取得了一些效果,同時(shí)隨著強(qiáng)化學(xué)習(xí)的普及聋亡,在美團(tuán)這種用戶與系統(tǒng)強(qiáng)交互的場(chǎng)景下肘习,用戶的行為反饋蘊(yùn)含著很大的研究價(jià)值,未來利用用戶的實(shí)時(shí)反饋信息進(jìn)行調(diào)序是個(gè)值得探索的方向坡倔。例如漂佩,根據(jù)用戶上一刻的瀏覽反饋,對(duì)用戶下一刻的展示結(jié)果進(jìn)行調(diào)序罪塔。

除了上面提到的三點(diǎn)投蝉,考慮到美團(tuán)搜索上承載著多個(gè)業(yè)務(wù),比如美食征堪、到綜瘩缆、酒店、旅游等等佃蚜,各個(gè)業(yè)務(wù)之間既有共性也有自己獨(dú)有的特性庸娱,并且除了優(yōu)化用戶體驗(yàn),也需要滿足業(yè)務(wù)需求爽锥。為了更好的對(duì)這一塊建模優(yōu)化涌韩, 我們也正在探索 Partition Model 和多目標(biāo)相關(guān)的工作,歡迎業(yè)界同行一起交流氯夷。

參考資料

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv:1810.04805, 2018.

[3] Song W, Shi C, Xiao Z, et al. Autoint: Automatic feature interaction learning via self-attentive neural networks[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019: 1161-1170.

[4] Chen Q, Zhao H, Li W, et al. Behavior sequence transformer for e-commerce recommendation in Alibaba[C]//Proceedings of the 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data. 2019: 1-4.

[5] Pei C, Zhang Y, Zhang Y, et al. Personalized re-ranking for recommendation[C]//Proceedings of the 13th ACM Conference on Recommender Systems. 2019: 3-11.

[6] http://jalammar.github.io/illustrated-transformer/

[7] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018: 1059-1068.

[8] Zhou G, Mou N, Fan Y, et al. Deep interest evolution network for click-through rate prediction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 5941-5948.

[9] Feng Y, Lv F, Shen W, et al. Deep Session Interest Network for Click-Through Rate Prediction[J]. arXiv:1905.06482, 2019.

[10] Zhuang T, Ou W, Wang Z. Globally optimized mutual influence aware ranking in e-commerce search[J]. arXiv:1805.08524, 2018.

[11] Ai Q, Bi K, Guo J, et al. Learning a deep listwise context model for ranking refinement[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 135-144.

作者簡介

肖垚臣樱,家琪,周翔,陳勝雇毫,云森玄捕,永超,仲遠(yuǎn)等棚放,均來自美團(tuán) AI 平臺(tái)搜索與 NLP 部枚粘。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市飘蚯,隨后出現(xiàn)的幾起案子馍迄,更是在濱河造成了極大的恐慌,老刑警劉巖局骤,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件攀圈,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡峦甩,警方通過查閱死者的電腦和手機(jī)赘来,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來凯傲,“玉大人犬辰,你說我怎么就攤上這事”ィ” “怎么了幌缝?”我有些...
    開封第一講書人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長球凰。 經(jīng)常有香客問我狮腿,道長,這世上最難降的妖魔是什么呕诉? 我笑而不...
    開封第一講書人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任缘厢,我火速辦了婚禮,結(jié)果婚禮上甩挫,老公的妹妹穿的比我還像新娘贴硫。我一直安慰自己,他們只是感情好伊者,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開白布英遭。 她就那樣靜靜地躺著,像睡著了一般亦渗。 火紅的嫁衣襯著肌膚如雪挖诸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評(píng)論 1 299
  • 那天法精,我揣著相機(jī)與錄音多律,去河邊找鬼痴突。 笑死,一個(gè)胖子當(dāng)著我的面吹牛狼荞,可吹牛的內(nèi)容都是我干的辽装。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼相味,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼拾积!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起丰涉,我...
    開封第一講書人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤拓巧,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后一死,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體玲销,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年摘符,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片策吠。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡逛裤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出猴抹,到底是詐尸還是另有隱情带族,我是刑警寧澤,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布蟀给,位于F島的核電站蝙砌,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏跋理。R本人自食惡果不足惜择克,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望前普。 院中可真熱鬧肚邢,春花似錦、人聲如沸拭卿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽峻厚。三九已至响蕴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間惠桃,已是汗流浹背浦夷。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來泰國打工辖试, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人军拟。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓剃执,卻偏偏與公主長得像,于是被迫代替她去往敵國和親懈息。 傳聞我的和親對(duì)象是個(gè)殘疾皇子肾档,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容