Transformer 在美團(tuán)搜索排序中的實(shí)踐

是一片非常好文删窒，特意記錄下來供以后參閱造垛。
記錄自：https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651751586&idx=1&sn=a61c9da125e9b7e68473b32e0278b0ea&chksm=bd125def8a65d4f9d20b682345365d5001e9c863d5046acf683da6116b265d168c0340754fc9&scene=21#wechat_redirect

近年來，BERT等Transformer模型大放異彩姻乓，在搜索推薦系統(tǒng)應(yīng)用也成為業(yè)界的一種潮流嵌溢。美美今天介紹的這篇文章，將分享Transformer在美團(tuán)搜索排序上的實(shí)踐經(jīng)驗(yàn)蹋岩。

引言

美團(tuán)搜索是美團(tuán) App 連接用戶與商家的一種重要方式赖草，而排序策略則是搜索鏈路的關(guān)鍵環(huán)節(jié)，對(duì)搜索展示效果起著至關(guān)重要的效果剪个。目前秧骑，美團(tuán)的搜索排序流程為多層排序，分別是粗排扣囊、精排乎折、異構(gòu)排序等笆檀，多層排序的流程主要是為了平衡效果和性能盒至。搜索核心精排策略是 DNN 模型，美團(tuán)搜索始終貼近業(yè)務(wù)樱衷，并且結(jié)合先進(jìn)技術(shù)酒唉，從特征、模型結(jié)構(gòu)痪伦、優(yōu)化目標(biāo)角度對(duì)排序效果進(jìn)行了全面的優(yōu)化。

近些年网沾，基于 Transformer[1] 的一些 NLP 模型大放光彩，比如 BERT[2] 等等（可參考《美團(tuán)BERT的探索和實(shí)踐》）桦山，將 Transformer 結(jié)構(gòu)應(yīng)用于搜索推薦系統(tǒng)也成為業(yè)界的一個(gè)潮流。比如應(yīng)用于對(duì) CTR 預(yù)估模型進(jìn)行特征組合的 AutoInt[3]醋旦、行為序列建模的 BST[4] 以及重排序模型 PRM[5]恒水，這些工作都證明了 Transformer 引入搜索推薦領(lǐng)域能取得不錯(cuò)的效果，所以美團(tuán)搜索核心排序也在 Transformer 上進(jìn)行了相關(guān)的探索饲齐。

本文旨在分享 Transformer 在美團(tuán)搜索排序上的實(shí)踐經(jīng)驗(yàn)钉凌。內(nèi)容會(huì)分為以下三個(gè)部分：第一部分對(duì) Transformer 進(jìn)行簡單介紹，第二部分會(huì)介紹 Transfomer 在美團(tuán)搜索排序上的應(yīng)用以及實(shí)踐經(jīng)驗(yàn)捂人，最后一部分是總結(jié)與展望甩骏。希望能對(duì)大家有所幫助和啟發(fā)。

Transformer 簡介

Transformer 是谷歌在論文《Attention is all you need》[1] 中提出來解決 Sequence to Sequence 問題的模型先慷，其本質(zhì)上是一個(gè)編解碼（Encoder-Decoder ）結(jié)構(gòu)饮笛，編碼器 Encoder 由 6 個(gè)編碼 block 組成，Encoder 中的每個(gè) block 包含 Multi-Head Attention 和 FFN（Feed-Forward Network）论熙；同樣解碼器 Decoder 也是 6 個(gè)解碼 block 組成福青，每個(gè) block 包含 Multi-Head Attention、Encoder-Decoder Attention 和 FFN脓诡。具體結(jié)構(gòu)如圖 1 所示无午，其詳細(xì)的介紹可參考文獻(xiàn)[1,6]。

圖片

圖1 Transformer 結(jié)構(gòu)示意圖

考慮到后續(xù)內(nèi)容出現(xiàn)的 Transformer Layer 就是 Transformer 的編碼層祝谚，這里先對(duì)它做簡單的介紹宪迟。它主要由以下兩部分組成。

Multi-Head Attention

Multi-Head Attention 實(shí)際上是 h 個(gè) Self-Attention 的集成交惯， h 代表頭的個(gè)數(shù)次泽。其中 Self-Attention 的計(jì)算公式如下：

圖片

其中穿仪，Q代表查詢，K代表鍵意荤，V代表數(shù)值啊片。

在我們的應(yīng)用實(shí)踐中玖像，原始輸入是一系列 Embedding 向量構(gòu)成的矩陣 E，矩陣 E 首先通過線性投影：

image.gif

得到三個(gè)矩陣：

圖片

然后將投影后的矩陣輸入到 Multi-Head Attention。計(jì)算公式如下：

圖片

Point-wise Feed-Forward Networks

該模塊是為了提高模型的非線性能力提出來的瞒窒，它就是全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)根竿，計(jì)算公式如下：

圖片

Transformer Layer 就是通過這種自注意力機(jī)制層和普通非線性層來實(shí)現(xiàn)對(duì)輸入信號(hào)的編碼寇壳，得到信號(hào)的表示壳炎。

美團(tuán)搜索排序Transformer實(shí)踐經(jīng)驗(yàn)

Transformer 在美團(tuán)搜索排序上的實(shí)踐主要分以下三個(gè)部分：第一部分是特征工程逼侦，第二部分是行為序列建模，第三部分是重排序铲球。下面會(huì)逐一進(jìn)行詳細(xì)介紹稼病。

特征工程

在搜索排序系統(tǒng)中，模型的輸入特征維度高但稀疏性很強(qiáng)然走，而準(zhǔn)確的交叉特征對(duì)模型的效果又至關(guān)重要芍瑞。所以尋找一種高效的特征提取方式就變得十分重要拆檬，我們借鑒 AutoInt[3] 的方法，采用 Transformer Layer 進(jìn)行特征的高階組合码泛。

模型結(jié)構(gòu)

我們的模型結(jié)構(gòu)參考 AutoInt[3] 結(jié)構(gòu)澄耍，但在實(shí)踐中齐莲，根據(jù)美團(tuán)搜索的數(shù)據(jù)特點(diǎn)选酗，我們對(duì)模型結(jié)構(gòu)做了一些調(diào)整芒填，如下圖 2 所示：

圖片

圖2 Transformer & Deep 結(jié)構(gòu)示意圖

相比 AutoInt[3]，該結(jié)構(gòu)有以下不同：

保留將稠密特征和離散特征的 Embedding 送入到 MLP 網(wǎng)絡(luò)闷祥，以隱式的方式學(xué)習(xí)其非線性表達(dá)凯砍。
Transformer Layer 部分悟衩，不是送入所有特征的 Embedding栓拜，而是基于人工經(jīng)驗(yàn)選擇了部分特征的 Embedding菱属，第一點(diǎn)是因?yàn)槊缊F(tuán)搜索場(chǎng)景特征的維度高纽门，全輸入進(jìn)去會(huì)提高模型的復(fù)雜度赏陵，導(dǎo)致訓(xùn)練和預(yù)測(cè)都很慢；第二點(diǎn)是缕溉，所有特征的 Embedding 維度不完全相同证鸥，也不適合一起輸入到 Transformer Layer 枉层。

Embedding Layer 部分：眾所周知在 CTR 預(yù)估中鸟蜡，除了大規(guī)模稀疏 ID 特征，稠密類型的統(tǒng)計(jì)特征也是非常有用的特征跳座，所以這部分將所有的稠密特征和稀疏 ID 特征都轉(zhuǎn)換成 Embedding 表示疲眷。

Transformer 部分：針對(duì)用戶行為序列咪橙、商戶美侦、品類仆潮、地理位置等 Embedding 表示中燥，使用 Transformer Layer 來顯示學(xué)習(xí)這些特征的交叉關(guān)系薪寓。

MLP 部分：考慮到 MLP 具有很強(qiáng)的隱式交叉能力怜跑，將所有特征的 Embedding 表示 concat 一起輸入到 MLP性芬。

實(shí)踐效果及經(jīng)驗(yàn)

效果：離線效果提升植锉，線上 QV_CTR 效果波動(dòng)俊庇。

經(jīng)驗(yàn)：

三層 Transformer 編碼層效果比較好暇赤。
調(diào)節(jié)多頭注意力的“頭”數(shù)對(duì)效果影響不大鞋囊。
Transformer 編碼層輸出的 Embedding 大小對(duì)結(jié)果影響不大溜腐。
Transformer 和 MLP 融合的時(shí)候挺益，最后結(jié)果融合和先 concat 再接一個(gè)全連接層效果差不多乘寒。

行為序列建模

理解用戶是搜索排序中一個(gè)非常重要的問題伞辛。過去蚤氏，我們對(duì)訓(xùn)練數(shù)據(jù)研究發(fā)現(xiàn)竿滨，在訓(xùn)練數(shù)據(jù)量很大的情況下毁葱，item 的大部分信息都可以被 ID 的 Embedding 向量進(jìn)行表示贰剥，但是用戶 ID 在訓(xùn)練數(shù)據(jù)中是十分稀疏的柱告，用戶 ID 很容易導(dǎo)致模型過擬合，所以需要大量的泛化特征來較好的表達(dá)用戶葵袭。這些泛化特征可以分為兩類：一類是偏靜態(tài)的特征坡锡，例如用戶的基本屬性（年齡鹉勒、性別禽额、職業(yè)等等）特征、長期偏好（品類藻丢、價(jià)格等等）特征悠反；另一類是動(dòng)態(tài)變化的特征斋否，例如刻畫用戶興趣的實(shí)時(shí)行為序列特征如叼。而用戶實(shí)時(shí)行為特征能夠明顯加強(qiáng)不同樣本之間的區(qū)分度笼恰，所以在模型中優(yōu)化用戶行為序列建模是讓模型更好理解用戶的關(guān)鍵環(huán)節(jié)社证。

目前追葡，主流方法是采用對(duì)用戶行為序列中的 item 進(jìn)行 Sum-pooling 或者 Mean-pooling 后的結(jié)果來表達(dá)用戶的興趣匀钧，這種假設(shè)所有行為內(nèi)的 item 對(duì)用戶的興趣都是等價(jià)的之斯，因而會(huì)引入一些噪聲佑刷。尤其是在美團(tuán)搜索這種交互場(chǎng)景，這種假設(shè)往往是不能很好地進(jìn)行建模來表達(dá)用戶興趣麦萤。

近年來频鉴，在搜索推薦算法領(lǐng)域藕甩，針對(duì)用戶行為序列建模取得了重要的進(jìn)展：DIN 引入注意力機(jī)制狭莱，考慮行為序列中不同 item 對(duì)當(dāng)前預(yù)測(cè) item 有不同的影響[7]默怨；而 DIEN 的提出匙睹，解決 DIN 無法捕捉用戶興趣動(dòng)態(tài)變化的缺點(diǎn)[8]济竹。DSIN 針對(duì) DIN 和 DIEN 沒有考慮用戶歷史行為中的 Session 信息痕檬，因?yàn)槊總€(gè) Session 中的行為是相近的，而在不同 Session 之間的差別很大送浊，它在 Session 層面上對(duì)用戶的行為序列進(jìn)行建模[9]梦谜；BST 模型通過 Transformer 模型來捕捉用戶歷史行為序列中的各個(gè) item 的關(guān)聯(lián)特征，與此同時(shí)，加入待預(yù)測(cè)的 item 來達(dá)到抽取行為序列中的商品與待推薦商品之間的相關(guān)性[4]唁桩。這些已經(jīng)發(fā)表過的工作都具有很大的價(jià)值闭树。接下來，我們主要從美團(tuán)搜索的實(shí)踐業(yè)務(wù)角度出發(fā)荒澡，來介紹 Transformer 在用戶行為序列建模上的實(shí)踐。

模型結(jié)構(gòu)

在 Transformer 行為序列建模中鸵赫，我們迭代了三個(gè)版本的模型結(jié)構(gòu)膨疏，下面會(huì)依次進(jìn)行介紹饲帅。

模型主要構(gòu)成：所有特征（user 維度、item 維度、query 維度、上下文維度、交叉維度）經(jīng)過底層 Embedding Layer 得到對(duì)應(yīng)的 Embedding 表示侨颈；建模用戶行為序列得到用戶的 Embedding 表示扛拨；所有 Embedding concat 一起送入到三層的 MLP 網(wǎng)絡(luò)计盒。

第一個(gè)版本：因?yàn)樵瓉淼?Sum-pooling 建模方式?jīng)]有考慮行為序列內(nèi)部各行為的關(guān)系，而 Transformer 又被證明能夠很好地建模序列內(nèi)部之間的關(guān)系，所以我們嘗試直接將行為序列輸入到 Transformer Layer，其模型結(jié)構(gòu)如圖3 所示：

圖片

圖3 Transformer 行為序列建模

行為序列建模模塊

輸入部分

分為短期行為序列和長期行為序列。
行為序列內(nèi)部的每個(gè)行為原始表示是由商戶 ID踩窖，以及一些商戶泛化信息的 Embedding 進(jìn)行 concat 組成啥供。
每段行為序列的長度固定贷屎，不足部分使用零向量進(jìn)行補(bǔ)齊。

輸出部分

對(duì) Transformer Layer 輸出的向量做 Sum-pooling （這里嘗試過Mean-pooling同眯、concat唠粥，效果差不多）得到行為序列的最終 Embedding 表示官份。

該版本的離線指標(biāo)相比線上 Base（行為序列 Sum-pooling）模型持平钠右，盡管該版本沒有取得離線提升狠毯，但是我們繼續(xù)嘗試優(yōu)化。

第二個(gè)版本：第一個(gè)版本存在一個(gè)問題羡蛾，對(duì)所有的 item 打分的時(shí)候捐迫，用戶的 Embedding 表示都是一樣的萌丈，所以參考 BST[4]，在第一個(gè)版本的基礎(chǔ)上引入 Target-item，這樣可以學(xué)習(xí)行為序列內(nèi)部的 item 與 Target-item 的相關(guān)性罚勾，這樣在對(duì)不同的 item 打分時(shí)吭狡，用戶的 Embedding 表示是不一樣的，其模型結(jié)構(gòu)如下圖4 所示：

圖片

圖4 Transformer 行為序列建模

該版本的離線指標(biāo)相比線上 Base（行為序列 Sum-pooling）模型提升蟹略，上線發(fā)現(xiàn)效果波動(dòng)，我們?nèi)匀粵]有灰心，繼續(xù)迭代優(yōu)化。

第三個(gè)版本：和第二個(gè)版本一樣，同樣針對(duì)第一個(gè)版本存在的對(duì)不同 item 打分展哭，用戶 Embedding 表示一樣的問題，嘗試在第一個(gè)版本引入 Transformer 的基礎(chǔ)上棵介，疊加 DIN[7] 模型里面的 Attention-pooling 機(jī)制來解決該問題邮辽，其模型結(jié)構(gòu)如圖5 所示：

圖片

圖5 Transformer 行為序列建模

該版本的離線指標(biāo)相比第二個(gè)版本模型有提升，上線效果相比線上 Base（行為序列 Sum-pooling）有穩(wěn)定提升蒲拉。

實(shí)踐效果及經(jīng)驗(yàn)

效果：第三個(gè)版本（Transformer + Attention-pooling）模型的線上 QV_CTR 和 NDCG 提升最為顯著蚯根。

經(jīng)驗(yàn)：

Transformer 編碼為什么有效？Transformer 編碼層內(nèi)部的自注意力機(jī)制，能夠?qū)π蛄袃?nèi) item 的相互關(guān)系進(jìn)行有效的建模來實(shí)現(xiàn)更好的表達(dá)颅拦，并且我們離線實(shí)驗(yàn)不加 Transformer 編碼層的 Attention-pooling，發(fā)現(xiàn)離線 NDCG 下降教藻，從實(shí)驗(yàn)上證明了 Transformer 編碼有效距帅。
Transformer 編碼為什么優(yōu)于 GRU ？忽略 GRU 的性能差于 Transformer括堤；我們做過實(shí)驗(yàn)將行為序列長度的上限往下調(diào)碌秸，Transformer 的效果相比 GRU 的效果提升在縮小，但是整體還是行為序列的長度越大越好悄窃，所以Transformer 相比 GRU 在長距離時(shí)讥电，特征捕獲能力更強(qiáng)。
位置編碼（****Pos-Encoding****）的影響：我們?cè)囘^加 Transformer 里面原生的正余弦以及距當(dāng)前預(yù)測(cè)時(shí)間的時(shí)間間隔的位置編碼都無效果轧抗，分析應(yīng)該是我們?cè)谔幚硇袨樾蛄械臅r(shí)候恩敌，已經(jīng)將序列切割成不同時(shí)間段，一定程度上包含了時(shí)序位置信息横媚。為了驗(yàn)證這個(gè)想法纠炮，我們做了僅使用一個(gè)長序列的實(shí)驗(yàn)（對(duì)照組不加位置編碼，實(shí)驗(yàn)組加位置編碼灯蝴，離線 NDCG 有提升）恢口，這驗(yàn)證了我們的猜測(cè)。
Transformer 編碼層不需要太多穷躁，層數(shù)過多導(dǎo)致模型過于復(fù)雜耕肩，模型收斂慢效果不好。
調(diào)節(jié)多頭注意力的“頭”數(shù)對(duì)效果影響不大问潭。

重排序

在引言中猿诸，我們提到美團(tuán)搜索排序過去做了很多優(yōu)化工作，但是大部分都是集中在 PointWise 的排序策略上睦授，未能充分利用商戶展示列表的上下文信息來優(yōu)化排序两芳。一種直接利用上下文信息優(yōu)化排序的方法是對(duì)精排的結(jié)果進(jìn)行重排，這可以抽象建模成一個(gè)序列（排序序列）生成另一個(gè)序列（重排序列）的過程去枷，自然聯(lián)想到可以使用 NLP 領(lǐng)域常用的 Sequence to Sequence 建模方法進(jìn)行重排序建模怖辆。

目前業(yè)界已有一些重排序的工作，比如使用 RNN 重排序[10-11]删顶、Transformer 重排序[5]竖螃。考慮到 Transformer 相比 RNN 有以下兩個(gè)優(yōu)勢(shì)：（1）兩個(gè) item 的相關(guān)性計(jì)算不受距離的影響（2）Transformer 可以并行計(jì)算逗余，處理效率比 RNN 更高特咆；所以我們選擇 Transformer 對(duì)重排序進(jìn)行建模。

模型結(jié)構(gòu)

模型結(jié)構(gòu)參考了 PRM[5]，結(jié)合美團(tuán)搜索實(shí)踐的情況腻格，重排序模型相比 PRM 做了一些調(diào)整画拾。具體結(jié)構(gòu)如圖 6 所示，其中 D1菜职，D2青抛，…，Dn 是重排商戶集合酬核，最后根據(jù)模型的輸出 Score(D1)蜜另，Score(D2)，…嫡意，Score(Dn)按照從大到小進(jìn)行排序举瑰。

image.gif

圖6 Transformer 重排序

主要由以下幾個(gè)部分構(gòu)成：

特征向量生成：由原始特征（user、item蔬螟、交叉等維度的稠密統(tǒng)計(jì)特征）經(jīng)過一層全連接的輸出進(jìn)行表示此迅。
輸入層：其中 X 表示商戶的特征向量，P 表示商戶的位置編碼促煮，將特征向量 X 與位置向量 P 進(jìn)行 concat 作為最終輸入邮屁。
Transformer 編碼層：一層 Multi-Head Attention 和 FFN 的。
輸出層：一層全連接網(wǎng)絡(luò)得到打分輸出 Score菠齿。

模型細(xì)節(jié)：

特征向量生成部分和重排序模型是一個(gè)整體佑吝，聯(lián)合端到端訓(xùn)練。
訓(xùn)練和預(yù)測(cè)階段固定選擇 TopK 進(jìn)行重排绳匀，遇到某些請(qǐng)求曝光 item 集不夠 TopK 的情況下芋忿，在末尾補(bǔ)零向量進(jìn)行對(duì)齊。

實(shí)踐效果及經(jīng)驗(yàn)

效果：Transformer 重排序?qū)€上 NDCG 和 QV_CTR 均穩(wěn)定正向提升疾棵。

經(jīng)驗(yàn)：

重排序大小如何選擇戈钢？考慮到線上性能問題，重排序的候選集不能過大是尔，我們分析數(shù)據(jù)發(fā)現(xiàn) 95% 的用戶瀏覽深度不超過 10殉了，所以我們選擇對(duì) Top10 的商戶進(jìn)行重排。
位置編碼向量的重要性：這個(gè)在重排序中很重要拟枚，需要位置編碼向量來刻畫位置薪铜，更好的讓模型學(xué)習(xí)出上下文信息，離線實(shí)驗(yàn)發(fā)現(xiàn)去掉位置向量 NDCG@10 下降明顯恩溅。
性能優(yōu)化：最初選擇商戶全部的精排特征作為輸入隔箍，發(fā)現(xiàn)線上預(yù)測(cè)時(shí)間太慢；后面進(jìn)行特征重要性評(píng)估脚乡，篩選出部分重要特征作為輸入蜒滩，使得線上預(yù)測(cè)性能滿足上線要求。
調(diào)節(jié)多頭注意力的“頭”數(shù)對(duì)效果影響不大。

總結(jié)和展望

2019 年底俯艰，美團(tuán)搜索對(duì) Transformer 在排序中的應(yīng)用進(jìn)行了一些探索捡遍，既取得了一些技術(shù)沉淀也在線上指標(biāo)上取得比較明顯的收益，不過未來還有很多的技術(shù)可以探索蟆炊。

在特征工程上稽莉，引入 Transformer 層進(jìn)行高階特征組合雖然沒有帶來收益，但是在這個(gè)過程中也再次驗(yàn)證了沒有萬能的模型對(duì)所有場(chǎng)景數(shù)據(jù)有效涩搓。目前搜索團(tuán)隊(duì)也在探索在特征層面應(yīng)用 BERT 對(duì)精排模型進(jìn)行優(yōu)化。

在行為序列建模上劈猪，目前的工作集中在對(duì)已有的用戶行為數(shù)據(jù)進(jìn)行建模來理解用戶昧甘，未來要想更加深入全面的認(rèn)識(shí)用戶，更加豐富的用戶數(shù)據(jù)必不可少战得。當(dāng)有了這些數(shù)據(jù)后如何進(jìn)行利用充边，又是一個(gè)可以探索的技術(shù)點(diǎn)，比如圖神經(jīng)網(wǎng)絡(luò)建模等等常侦。

在重排序建模上浇冰，目前引入 Transformer 取得了一些效果，同時(shí)隨著強(qiáng)化學(xué)習(xí)的普及聋亡，在美團(tuán)這種用戶與系統(tǒng)強(qiáng)交互的場(chǎng)景下肘习，用戶的行為反饋蘊(yùn)含著很大的研究價(jià)值，未來利用用戶的實(shí)時(shí)反饋信息進(jìn)行調(diào)序是個(gè)值得探索的方向坡倔。例如漂佩，根據(jù)用戶上一刻的瀏覽反饋，對(duì)用戶下一刻的展示結(jié)果進(jìn)行調(diào)序罪塔。

除了上面提到的三點(diǎn)投蝉，考慮到美團(tuán)搜索上承載著多個(gè)業(yè)務(wù)，比如美食征堪、到綜瘩缆、酒店、旅游等等佃蚜，各個(gè)業(yè)務(wù)之間既有共性也有自己獨(dú)有的特性庸娱，并且除了優(yōu)化用戶體驗(yàn)，也需要滿足業(yè)務(wù)需求爽锥。為了更好的對(duì)這一塊建模優(yōu)化涌韩，我們也正在探索 Partition Model 和多目標(biāo)相關(guān)的工作，歡迎業(yè)界同行一起交流氯夷。

參考資料

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv:1810.04805, 2018.

[3] Song W, Shi C, Xiao Z, et al. Autoint: Automatic feature interaction learning via self-attentive neural networks[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019: 1161-1170.

[4] Chen Q, Zhao H, Li W, et al. Behavior sequence transformer for e-commerce recommendation in Alibaba[C]//Proceedings of the 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data. 2019: 1-4.

[5] Pei C, Zhang Y, Zhang Y, et al. Personalized re-ranking for recommendation[C]//Proceedings of the 13th ACM Conference on Recommender Systems. 2019: 3-11.

[6] http://jalammar.github.io/illustrated-transformer/

[7] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018: 1059-1068.

[8] Zhou G, Mou N, Fan Y, et al. Deep interest evolution network for click-through rate prediction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 5941-5948.

[9] Feng Y, Lv F, Shen W, et al. Deep Session Interest Network for Click-Through Rate Prediction[J]. arXiv:1905.06482, 2019.

[10] Zhuang T, Ou W, Wang Z. Globally optimized mutual influence aware ranking in e-commerce search[J]. arXiv:1805.08524, 2018.

[11] Ai Q, Bi K, Guo J, et al. Learning a deep listwise context model for ranking refinement[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 135-144.

作者簡介

肖垚臣樱，家琪，周翔，陳勝雇毫，云森玄捕，永超，仲遠(yuǎn)等棚放，均來自美團(tuán) AI 平臺(tái)搜索與 NLP 部枚粘。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市飘蚯，隨后出現(xiàn)的幾起案子馍迄，更是在濱河造成了極大的恐慌，老刑警劉巖局骤，帶你破解...
沈念sama閱讀 216,651評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件攀圈，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡峦甩，警方通過查閱死者的電腦和手機(jī)赘来，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,468評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來凯傲，“玉大人犬辰，你說我怎么就攤上這事”ィ” “怎么了幌缝？”我有些...
開封第一講書人閱讀 162,931評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長球凰。經(jīng)常有香客問我狮腿，道長，這世上最難降的妖魔是什么呕诉？我笑而不...
開封第一講書人閱讀 58,218評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任缘厢，我火速辦了婚禮，結(jié)果婚禮上甩挫，老公的妹妹穿的比我還像新娘贴硫。我一直安慰自己，他們只是感情好伊者，可當(dāng)我...
茶點(diǎn)故事閱讀 67,234評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布英遭。她就那樣靜靜地躺著，像睡著了一般亦渗。火紅的嫁衣襯著肌膚如雪挖诸。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,198評(píng)論 1贊 299
城市分裂傳說
那天法精，我揣著相機(jī)與錄音多律，去河邊找鬼痴突。笑死，一個(gè)胖子當(dāng)著我的面吹牛狼荞，可吹牛的內(nèi)容都是我干的辽装。我是一名探鬼主播，決...
沈念sama閱讀 40,084評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼相味，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼拾积！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起丰涉，我...
開封第一講書人閱讀 38,926評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤拓巧，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后一死，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體玲销，經(jīng)...
沈念sama閱讀 45,341評(píng)論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,563評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年摘符，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片策吠。...
茶點(diǎn)故事閱讀 39,731評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡逛裤，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出猴抹，到底是詐尸還是另有隱情带族，我是刑警寧澤，帶...
沈念sama閱讀 35,430評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蟀给，位于F島的核電站蝙砌，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏跋理。R本人自食惡果不足惜择克，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,036評(píng)論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望前普。院中可真熱鬧肚邢，春花似錦、人聲如沸拭卿。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,676評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽峻厚。三九已至响蕴，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間惠桃，已是汗流浹背浦夷。一陣腳步聲響...
開封第一講書人閱讀 32,829評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工辖试，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人军拟。一個(gè)月前我還...
沈念sama閱讀 47,743評(píng)論 2贊 368
代替公主和親
正文我出身青樓剃执，卻偏偏與公主長得像，于是被迫代替她去往敵國和親懈息。傳聞我的和親對(duì)象是個(gè)殘疾皇子肾档，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,629評(píng)論 2贊 354

Transformer 在美團(tuán)搜索排序中的實(shí)踐

推薦閱讀更多精彩內(nèi)容