[搜索多樣性] Managing Diversity in Airbnb Search (KDD'20)

Background

  • Airbnb的搜索query通常是一系列條件丑孩,比如價格摧找、roomtype汽抚、位置精算、capacity等(和常規(guī)理解的query不太一樣)
  • listings:airbnb的房源,對應(yīng)在網(wǎng)頁搜索就是網(wǎng)頁柜候,電商搜索就是item
  • 之前的離線優(yōu)化指標(biāo)是NDCG(在線是orders)搞动,這個會導(dǎo)致結(jié)果缺乏多樣性,尤其是對于一些熱門的城市渣刷,top結(jié)果的價格鹦肿、位置等都很相似。而且這個也是符合預(yù)期的辅柴,對于深度學(xué)習(xí)的模型來說箩溃,相似的item會有相似的score

Contribution

  1. 定義了多樣性指標(biāo),并且在指標(biāo)中考慮了位置因素的影響 & 連續(xù)分布的距離計算方式
  2. 相關(guān)性(pairwise)和多樣性(based on distance)結(jié)合的loss
  3. 模型中結(jié)合了listwise context和query context

Related Work

MMR:沒考慮搜索位置的影響

α-NDCG:強依賴與subtopic relevance

多樣性指標(biāo)

對相關(guān)性指標(biāo)和多樣性指標(biāo)進行了加權(quán)求和(權(quán)重是人工指定的):

  • 相關(guān)性指標(biāo):需要按位置衰減(衰減函數(shù)是按經(jīng)驗指定的)碌嘀,公式2中的左邊這項
  • 多樣性指標(biāo):依賴于兩個item之間的距離函數(shù)計算涣旨,每個item只和前面的item進行組對計算距離,距離函數(shù)有多種定義方式(詳細見下文)
image.png
image.png

距離計算方法

  1. 整體距離:每個item由一些特征組成的向量表示股冗,包括價格开泽、位置、人數(shù)等魁瞪,類別類的特征用one-hot穆律,數(shù)字類的特征需要歸一。距離的計算公式paper中沒寫导俘,可能就是特征的歐氏距離
image.png
  1. location:通過挖掘的方式產(chǎn)出一個理想的位置分布(離散概率分布)峦耘,使用Hellinger距離來計算最終top K結(jié)果和理想位置分布之間的距離
  • 地理區(qū)域聚類:通過KD-Tree(一種適用于位置的聚類方法)對query的歷史成交item進行聚類(文中叫bucket),最終的聚類效果是面積小的熱門區(qū)域和面積大的郊區(qū)對應(yīng)的item數(shù)量差不多旅薄。
  • Hellinger距離:用來度量兩個概率分布之間的相似性辅髓,對于離散概率分布來說,
    image.png
  1. price:理想分布是正態(tài)分布少梁,概率最大的一個bucket是通過簡單的神經(jīng)網(wǎng)絡(luò)預(yù)測expected price Ep洛口;給定Top K結(jié)果需要做歸一,最小值和最大值通過人工指定的超參來控制凯沪,價格最小值 = α * Ep第焰,價格最大值 = β * Ep
image.png

Methodology

  1. Greedy Ranker:貪心算法,最大化MLR
  2. Second Stage Location Diversity Ranker:模擬退火妨马。先把根據(jù)default score排序的top K作為candidate挺举,然后隨機從candidate中選擇一個item和其他item做替換杀赢,loss下降就接受,loss上升就以一定概率接受湘纵,
image.png
  1. Combined Loss Function:在2的基礎(chǔ)上修改loss脂崔,原因在于H距離的loss無法反向傳播,無法在pair-wise的模型中計算梧喷。所以設(shè)計了一個替代loss砌左,原理是:如果輸入item集合中,某個bucket的item數(shù)量超過理想分布铺敌,就縮小該bucket的item的打分汇歹。文章沒寫具體公式。
  2. Contextual Features:4和5的整體思路都是將精排之后的item list整體放入重排中來适刀,因為一個item對于多樣性的loss取決于整個list秤朗。4的方法是在原本的模型中增加人工的聚合特征煤蹭,例如price/location/room type等特征的方差和均值
  3. Query Context Embedding:把item序列用default score排序后笔喉,用LSTM編碼,作為query context的一部分硝皂。具體后面query context embedding怎么應(yīng)用到下游模型常挚,文中沒寫。
    image.png

Experiment

image.png
image.png

Online實驗效果說明

  • Greedy Ranker:持平/略負稽物,分析是過于多樣性
  • Second Stage Location Diversity Ranker: 正向奄毡,尤其是對于新用戶,orders+1%贝或,中國的用戶+3.6%(之前的策略更傾向于城中心的吼过,現(xiàn)在這個也有其他位置的item)
  • Contextual Features: 持平,推測人工高級特征沒有用
  • Combined Loss Function: 持平咪奖,出現(xiàn)了一些極端價格盗忱,新用戶orders降低比較多,推測是對于價格敏感的用戶體驗有傷害
  • Query Context Embedding: 正向羊赵,online NDCG +1.2%, orders +0.44%, 新用戶orders +0.61%趟佃。分析了不同價格檔位的位置變動情況
image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市昧捷,隨后出現(xiàn)的幾起案子闲昭,更是在濱河造成了極大的恐慌,老刑警劉巖靡挥,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件序矩,死亡現(xiàn)場離奇詭異,居然都是意外死亡跋破,警方通過查閱死者的電腦和手機贮泞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進店門楞慈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人啃擦,你說我怎么就攤上這事囊蓝。” “怎么了令蛉?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵聚霜,是天一觀的道長。 經(jīng)常有香客問我珠叔,道長蝎宇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任祷安,我火速辦了婚禮姥芥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘汇鞭。我一直安慰自己凉唐,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布霍骄。 她就那樣靜靜地躺著台囱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪读整。 梳的紋絲不亂的頭發(fā)上簿训,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天,我揣著相機與錄音米间,去河邊找鬼强品。 笑死,一個胖子當(dāng)著我的面吹牛屈糊,可吹牛的內(nèi)容都是我干的的榛。 我是一名探鬼主播,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼另玖,長吁一口氣:“原來是場噩夢啊……” “哼困曙!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起谦去,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤慷丽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后鳄哭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體要糊,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年妆丘,在試婚紗的時候發(fā)現(xiàn)自己被綠了锄俄。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片局劲。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖奶赠,靈堂內(nèi)的尸體忽然破棺而出鱼填,到底是詐尸還是另有隱情,我是刑警寧澤毅戈,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布苹丸,位于F島的核電站,受9級特大地震影響苇经,放射性物質(zhì)發(fā)生泄漏赘理。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一扇单、第九天 我趴在偏房一處隱蔽的房頂上張望商模。 院中可真熱鬧,春花似錦蜘澜、人聲如沸施流。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽嫂沉。三九已至稽寒,卻和暖如春扮碧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背杏糙。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工慎王, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人宏侍。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓赖淤,卻偏偏與公主長得像,于是被迫代替她去往敵國和親谅河。 傳聞我的和親對象是個殘疾皇子咱旱,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內(nèi)容