思路:輸入查詢item,官方根據(jù)狄利克雷模型輸出查詢結(jié)果,從這些查詢結(jié)果中選取部分(1000個(gè))重新排序工腋,然后返回給用戶姨丈。
生成查詢(兩個(gè)階段)
第一個(gè)階段:確定item,方法:標(biāo)簽(判斷是否為短語查詢) 維基title(查看是否有item在維基有詞條) leftover(不在維基title里邊的item)
第二個(gè)階段:根據(jù)上邊得到的items搜索得到twitters擅腰,然后選擇幾條擴(kuò)展item(選擇item)
涉及到的公式:
For each tweet we:
- Count the number of unique query concepts present in the unstemmed tweet and divide by total number of query concepts (C).
- Count the number of Wikipedia titles present in the tweet and divide by total number of Wikipedia title (T).
- Count the number of original query terms present in the tweet and divide by total number of query terms (Q).
- Calculate a new tweet score: 0.6C + 0.3T + 0.1Q
相關(guān)度:
which selects the difference whichvalue is larger than the average difference plus 1.5 times the standard deviation of the differences: *D *≥ μ + 1.5σ.
對查詢結(jié)果排序(三種方法)
第一種方法:考慮特征蟋恬,以下為特征,然后根據(jù)特征排序
Paste_Image.png
第二種方法:數(shù)據(jù)融合趁冈,以下為公式:
Paste_Image.png
第三種方法:URL 助推歼争,擴(kuò)展url,獲取里邊的信息
實(shí)驗(yàn)結(jié)果:
第三種方法最好