問題:
以今日頭條為例的搜索場(chǎng)景涮俄,推薦的 Query 相關(guān)詞 Box 出現(xiàn)大量重復(fù),降低有效曝光
思路:
字面匹配:simhash 編輯距離 海明距離
語(yǔ)義匹配:WE相似 BERT
Simhash
Google 廣泛使用在頁(yè)面去重的 Simhash 是首先想到的方法
simhash 的簡(jiǎn)單實(shí)現(xiàn):http://www.reibang.com/p/8007c5aaef21
BERT
Google 在 2018 年推出了刷新 11 項(xiàng) NLP 指標(biāo)的 BERT
BERT 可以將短語(yǔ)進(jìn)行向量化麸恍,從而比較相似度译仗,并且其提供的 pre-trained 模型十分方便
BERT 的問題是依賴較為麻煩卖子,難以處理
資料:
https://www.cnblogs.com/huilixieqi/p/6493089.html