7.1快速評分及排序
思想:把查詢向量看成是1,<1,1,1,..>室埋,這樣的話产雹,計(jì)算query和文檔d的余弦相似度時(shí),只需要累加文檔d的權(quán)重即可
7.1.1 非精確的返回前k偏文檔的方法
思想:1)先找一個(gè)文檔集合A;條件是包含很多和前k偏文檔得分相近的文檔拂檩;K<|A|<<N,遠(yuǎn)遠(yuǎn)小于文檔總戶
2)返回集合A中的得分最高的前K篇文檔吗冤;
7.1.2 索引去除技術(shù)
思想:
1)在倒排中查詢字典時(shí)又厉,詞項(xiàng)idf值超過一定閥值的文檔被留下;小于閥值的文檔將忽略掉椎瘟。自己考慮好處覆致?
2)只留下包含多個(gè)查詢詞項(xiàng)的文檔;
這樣的話肺蔚,可以把倒排索引中的很多拉鏈數(shù)據(jù)過濾掉煌妈。也就是所說的索引去除技術(shù);
7.1.3 勝者表
champion list (同義:fancy list ; top doc)
思想: 對于詞典中的每個(gè)詞項(xiàng)term宣羊,預(yù)先計(jì)算前r個(gè)最高權(quán)重的文檔璧诵; 使用時(shí),也就是這些文檔參與相似度計(jì)算段只;
7.1.4 靜態(tài)得分和排序
static quality score: 靜態(tài)質(zhì)量得分 簡稱:靜態(tài)得分