查詢優(yōu)化
- 全局方法
- 基于同義詞詞典或wordnet的查詢擴(kuò)展或重構(gòu)方法
- 自動(dòng)構(gòu)造同義詞詞典并基于它進(jìn)行查詢擴(kuò)展
- 類似拼寫校正的技術(shù)
- 局部方法
- 相關(guān)反饋
- 偽相關(guān)反饋
- 間接相關(guān)反饋
相關(guān)反饋和偽相關(guān)反饋
- RF(relevance feedback芙扎,相關(guān)反饋):在信息檢索的過程中通過用戶交互來提高最終的檢索結(jié)果鳖藕。
- 過程:
- 用戶提交簡短的過程
- 系統(tǒng)返回初次檢索結(jié)果
- 用戶將部分結(jié)果進(jìn)行標(biāo)注匾荆,標(biāo)注為相關(guān)或不相關(guān)
- 系統(tǒng)基于用戶的反饋計(jì)算出一個(gè)更好的查詢來 表示信息需求
- 利用新查詢系統(tǒng)返回新檢索結(jié)果
Rocchio相關(guān)反饋算法
-
基本理論:找到一個(gè)最優(yōu)查詢向量q脂崔,它與相關(guān)文檔之間的相似度最大且同時(shí)又與不相關(guān)文檔之間的相似度最小虑瀑。
-
最優(yōu)的查詢向量等于相關(guān)文檔的質(zhì)心向量和不相關(guān)文檔的質(zhì)心向量的差
-
q0 是原始的查詢向量宿崭,Dr 和Dnr 是已知的相關(guān)和不相關(guān)文檔集合懒豹。α侦副、β 及γ 是上述三者的權(quán)重污它。這些權(quán)重能夠控制判定結(jié)果和原始查詢向量之間的平衡:如果存在大量已判斷的文檔剖踊,那么會(huì)給β 及γ 賦予較高的權(quán)重。修改后的新查詢從q0 開始衫贬,向著相關(guān)文檔的質(zhì)心向量靠近了一段距離德澈,而同時(shí)又與不相關(guān)文檔的質(zhì)心向量遠(yuǎn)離了一段距離。新查詢可以采用常規(guī)的向量空間模型進(jìn)行檢索固惯。通過減去不相關(guān)文檔的向量梆造,我們很容易保留向量空間的正值分量。在Rocchio 算法中葬毫,文檔向量中的權(quán)重分量如果為負(fù)值镇辉,那么該分量將會(huì)被忽略,也就是說供常,此時(shí)會(huì)將該分量權(quán)重設(shè)為0摊聋。
正反饋往往比負(fù)反饋更有價(jià)值,在很多IR系統(tǒng)中栈暇,會(huì)將參數(shù)設(shè)置成 y < b麻裁,一個(gè)合理的取值是 a = 1, b = 0.75, y = 0.15
基于概率的相關(guān)反饋方法
-
如果已知一些相關(guān)和不相關(guān)文檔,我們可以通過建立分類器而不是修改查詢向量的權(quán)重進(jìn)行相關(guān)反饋源祈。一種實(shí)現(xiàn)分類器的方法是采用樸素貝葉斯概率模型煎源,這樣,就可以根據(jù)文檔的相關(guān)性香缺,來估計(jì)詞項(xiàng) t 出現(xiàn)在該文檔中的概率
相關(guān)反饋的作用時(shí)機(jī)
- 用戶需要有足夠的知識(shí)來建立一個(gè)不錯(cuò)的初始查詢手销。
- 相關(guān)反饋要求相關(guān)文檔間非常相似。Rocchio相關(guān)反饋模型通過計(jì)算簇質(zhì)心向量图张,隱式的將相關(guān)文檔看成單個(gè)簇锋拖。如果相關(guān)文檔包括多個(gè)不同子類诈悍,即它們在向量空間中可以聚成多個(gè)簇,那么Rocchio方法效果會(huì)不太好兽埃。
- 相關(guān)反饋不能解決的問題
- 拼寫錯(cuò)誤
- 跨語言IR
- 用戶的詞匯表和文檔集的詞匯表不匹配
Web上的相關(guān)反饋
- 相關(guān)反饋技術(shù)在Web很少使用(高級(jí)搜索)
- 相關(guān)反饋很難向普通用戶解釋清楚
- 相關(guān)反饋技術(shù)主要提高召回率侥钳,而Web搜索用戶并不在乎
相關(guān)反饋策略的評(píng)價(jià)
- 至少需要有5篇已判定的文檔
- q0的正確率-召回率曲線,qm的正確率-召回率曲線柄错,一般MAP指標(biāo)會(huì)有50%的提升舷夺。(只對(duì)用戶沒有看過的文檔進(jìn)行評(píng)價(jià))
- 利用剩余文檔對(duì)反饋后的結(jié)果進(jìn)行評(píng)價(jià)
- 給出兩個(gè)文檔集,一個(gè)用于初始查詢和相關(guān)性判定售貌,另一個(gè)用于比較和評(píng)價(jià)
- 更好的評(píng)價(jià)方法:進(jìn)行用戶調(diào)查
基于時(shí)間:與其他方法相比给猾,用戶采用相關(guān)反饋技術(shù)找到相關(guān)文檔的時(shí)間是否更短 / 用戶在固定時(shí)間內(nèi)是否能找到更多的相關(guān)文檔
偽相關(guān)反饋(pseudo relevance)(盲相關(guān)反饋 blind relevance feedback)
它將相關(guān)反饋的人工操作部分自動(dòng)化,因此颂跨,不同于Rocchio算法敢伸,用戶不再需要進(jìn)行額外的交互。該方法首先進(jìn)行正常的檢索過程毫捣,返回最相關(guān)的文檔構(gòu)成初始集详拙,然后假設(shè)排名靠前的k篇文檔時(shí)相關(guān)的,最后在此假設(shè)上像以往一樣進(jìn)行相關(guān)反饋蔓同。
間接相關(guān)反饋(隱相關(guān)反饋 implicit relevance feedback)
- Web搜索引擎DirectHit就引入了一種文檔排序的思路,即對(duì)于某文檔蹲诀,如果用戶瀏覽的次數(shù)越多斑粱,它的排名越高。