Background
- Airbnb的搜索query通常是一系列條件丑孩,比如價格摧找、roomtype汽抚、位置精算、capacity等(和常規(guī)理解的query不太一樣)
- listings:airbnb的房源,對應(yīng)在網(wǎng)頁搜索就是網(wǎng)頁柜候,電商搜索就是item
- 之前的離線優(yōu)化指標(biāo)是NDCG(在線是orders)搞动,這個會導(dǎo)致結(jié)果缺乏多樣性,尤其是對于一些熱門的城市渣刷,top結(jié)果的價格鹦肿、位置等都很相似。而且這個也是符合預(yù)期的辅柴,對于深度學(xué)習(xí)的模型來說箩溃,相似的item會有相似的score
Contribution
- 定義了多樣性指標(biāo),并且在指標(biāo)中考慮了位置因素的影響 & 連續(xù)分布的距離計算方式
- 相關(guān)性(pairwise)和多樣性(based on distance)結(jié)合的loss
- 模型中結(jié)合了listwise context和query context
Related Work
MMR:沒考慮搜索位置的影響
α-NDCG:強依賴與subtopic relevance
多樣性指標(biāo)
對相關(guān)性指標(biāo)和多樣性指標(biāo)進行了加權(quán)求和(權(quán)重是人工指定的):
- 相關(guān)性指標(biāo):需要按位置衰減(衰減函數(shù)是按經(jīng)驗指定的)碌嘀,公式2中的左邊這項
- 多樣性指標(biāo):依賴于兩個item之間的距離函數(shù)計算涣旨,每個item只和前面的item進行組對計算距離,距離函數(shù)有多種定義方式(詳細見下文)
image.png
image.png
距離計算方法
- 整體距離:每個item由一些特征組成的向量表示股冗,包括價格开泽、位置、人數(shù)等魁瞪,類別類的特征用one-hot穆律,數(shù)字類的特征需要歸一。距離的計算公式paper中沒寫导俘,可能就是特征的歐氏距離
image.png
- location:通過挖掘的方式產(chǎn)出一個理想的位置分布(離散概率分布)峦耘,使用Hellinger距離來計算最終top K結(jié)果和理想位置分布之間的距離
- 地理區(qū)域聚類:通過KD-Tree(一種適用于位置的聚類方法)對query的歷史成交item進行聚類(文中叫bucket),最終的聚類效果是面積小的熱門區(qū)域和面積大的郊區(qū)對應(yīng)的item數(shù)量差不多旅薄。
-
Hellinger距離:用來度量兩個概率分布之間的相似性辅髓,對于離散概率分布來說,image.png
- price:理想分布是正態(tài)分布少梁,概率最大的一個bucket是通過簡單的神經(jīng)網(wǎng)絡(luò)預(yù)測expected price Ep洛口;給定Top K結(jié)果需要做歸一,最小值和最大值通過人工指定的超參來控制凯沪,價格最小值 = α * Ep第焰,價格最大值 = β * Ep
image.png
Methodology
- Greedy Ranker:貪心算法,最大化MLR
- Second Stage Location Diversity Ranker:模擬退火妨马。先把根據(jù)default score排序的top K作為candidate挺举,然后隨機從candidate中選擇一個item和其他item做替換杀赢,loss下降就接受,loss上升就以一定概率接受湘纵,
image.png
- Combined Loss Function:在2的基礎(chǔ)上修改loss脂崔,原因在于H距離的loss無法反向傳播,無法在pair-wise的模型中計算梧喷。所以設(shè)計了一個替代loss砌左,原理是:如果輸入item集合中,某個bucket的item數(shù)量超過理想分布铺敌,就縮小該bucket的item的打分汇歹。文章沒寫具體公式。
- Contextual Features:4和5的整體思路都是將精排之后的item list整體放入重排中來适刀,因為一個item對于多樣性的loss取決于整個list秤朗。4的方法是在原本的模型中增加人工的聚合特征煤蹭,例如price/location/room type等特征的方差和均值
-
Query Context Embedding:把item序列用default score排序后笔喉,用LSTM編碼,作為query context的一部分硝皂。具體后面query context embedding怎么應(yīng)用到下游模型常挚,文中沒寫。
image.png
Experiment
image.png
image.png
Online實驗效果說明
- Greedy Ranker:持平/略負稽物,分析是過于多樣性
- Second Stage Location Diversity Ranker: 正向奄毡,尤其是對于新用戶,orders+1%贝或,中國的用戶+3.6%(之前的策略更傾向于城中心的吼过,現(xiàn)在這個也有其他位置的item)
- Contextual Features: 持平,推測人工高級特征沒有用
- Combined Loss Function: 持平咪奖,出現(xiàn)了一些極端價格盗忱,新用戶orders降低比較多,推測是對于價格敏感的用戶體驗有傷害
- Query Context Embedding: 正向羊赵,online NDCG +1.2%, orders +0.44%, 新用戶orders +0.61%趟佃。分析了不同價格檔位的位置變動情況
image.png