信息檢索復(fù)習(xí)(5)——相關(guān)反饋及查詢擴(kuò)展

查詢優(yōu)化

  1. 全局方法
  • 基于同義詞詞典或wordnet的查詢擴(kuò)展或重構(gòu)方法
  • 自動(dòng)構(gòu)造同義詞詞典并基于它進(jìn)行查詢擴(kuò)展
  • 類似拼寫校正的技術(shù)
  1. 局部方法
  • 相關(guān)反饋
  • 偽相關(guān)反饋
  • 間接相關(guān)反饋

相關(guān)反饋和偽相關(guān)反饋

  • RF(relevance feedback芙扎,相關(guān)反饋):在信息檢索的過程中通過用戶交互來提高最終的檢索結(jié)果鳖藕。
  • 過程:
    • 用戶提交簡短的過程
    • 系統(tǒng)返回初次檢索結(jié)果
    • 用戶將部分結(jié)果進(jìn)行標(biāo)注匾荆,標(biāo)注為相關(guān)或不相關(guān)
    • 系統(tǒng)基于用戶的反饋計(jì)算出一個(gè)更好的查詢來 表示信息需求
    • 利用新查詢系統(tǒng)返回新檢索結(jié)果

Rocchio相關(guān)反饋算法

  • 基本理論:找到一個(gè)最優(yōu)查詢向量q脂崔,它與相關(guān)文檔之間的相似度最大且同時(shí)又與不相關(guān)文檔之間的相似度最小虑瀑。


  • 最優(yōu)的查詢向量等于相關(guān)文檔的質(zhì)心向量和不相關(guān)文檔的質(zhì)心向量的差


  • q0 是原始的查詢向量宿崭,Dr 和Dnr 是已知的相關(guān)和不相關(guān)文檔集合懒豹。α侦副、β 及γ 是上述三者的權(quán)重污它。這些權(quán)重能夠控制判定結(jié)果和原始查詢向量之間的平衡:如果存在大量已判斷的文檔剖踊,那么會(huì)給β 及γ 賦予較高的權(quán)重。修改后的新查詢從q0 開始衫贬,向著相關(guān)文檔的質(zhì)心向量靠近了一段距離德澈,而同時(shí)又與不相關(guān)文檔的質(zhì)心向量遠(yuǎn)離了一段距離。新查詢可以采用常規(guī)的向量空間模型進(jìn)行檢索固惯。通過減去不相關(guān)文檔的向量梆造,我們很容易保留向量空間的正值分量。在Rocchio 算法中葬毫,文檔向量中的權(quán)重分量如果為負(fù)值镇辉,那么該分量將會(huì)被忽略,也就是說供常,此時(shí)會(huì)將該分量權(quán)重設(shè)為0摊聋。
    正反饋往往比負(fù)反饋更有價(jià)值,在很多IR系統(tǒng)中栈暇,會(huì)將參數(shù)設(shè)置成 y < b麻裁,一個(gè)合理的取值是 a = 1, b = 0.75, y = 0.15



基于概率的相關(guān)反饋方法

  • 如果已知一些相關(guān)和不相關(guān)文檔,我們可以通過建立分類器而不是修改查詢向量的權(quán)重進(jìn)行相關(guān)反饋源祈。一種實(shí)現(xiàn)分類器的方法是采用樸素貝葉斯概率模型煎源,這樣,就可以根據(jù)文檔的相關(guān)性香缺,來估計(jì)詞項(xiàng) t 出現(xiàn)在該文檔中的概率



相關(guān)反饋的作用時(shí)機(jī)

  1. 用戶需要有足夠的知識(shí)來建立一個(gè)不錯(cuò)的初始查詢手销。
  2. 相關(guān)反饋要求相關(guān)文檔間非常相似。Rocchio相關(guān)反饋模型通過計(jì)算簇質(zhì)心向量图张,隱式的將相關(guān)文檔看成單個(gè)簇锋拖。如果相關(guān)文檔包括多個(gè)不同子類诈悍,即它們在向量空間中可以聚成多個(gè)簇,那么Rocchio方法效果會(huì)不太好兽埃。
  • 相關(guān)反饋不能解決的問題
    • 拼寫錯(cuò)誤
    • 跨語言IR
    • 用戶的詞匯表和文檔集的詞匯表不匹配

Web上的相關(guān)反饋

  • 相關(guān)反饋技術(shù)在Web很少使用(高級(jí)搜索)
    1. 相關(guān)反饋很難向普通用戶解釋清楚
    2. 相關(guān)反饋技術(shù)主要提高召回率侥钳,而Web搜索用戶并不在乎

相關(guān)反饋策略的評(píng)價(jià)

  • 至少需要有5篇已判定的文檔
  1. q0的正確率-召回率曲線,qm的正確率-召回率曲線柄错,一般MAP指標(biāo)會(huì)有50%的提升舷夺。(只對(duì)用戶沒有看過的文檔進(jìn)行評(píng)價(jià))
  2. 利用剩余文檔對(duì)反饋后的結(jié)果進(jìn)行評(píng)價(jià)
  3. 給出兩個(gè)文檔集,一個(gè)用于初始查詢和相關(guān)性判定售貌,另一個(gè)用于比較和評(píng)價(jià)
  • 更好的評(píng)價(jià)方法:進(jìn)行用戶調(diào)查
    基于時(shí)間:與其他方法相比给猾,用戶采用相關(guān)反饋技術(shù)找到相關(guān)文檔的時(shí)間是否更短 / 用戶在固定時(shí)間內(nèi)是否能找到更多的相關(guān)文檔

偽相關(guān)反饋(pseudo relevance)(盲相關(guān)反饋 blind relevance feedback)

它將相關(guān)反饋的人工操作部分自動(dòng)化,因此颂跨,不同于Rocchio算法敢伸,用戶不再需要進(jìn)行額外的交互。該方法首先進(jìn)行正常的檢索過程毫捣,返回最相關(guān)的文檔構(gòu)成初始集详拙,然后假設(shè)排名靠前的k篇文檔時(shí)相關(guān)的,最后在此假設(shè)上像以往一樣進(jìn)行相關(guān)反饋蔓同。


間接相關(guān)反饋(隱相關(guān)反饋 implicit relevance feedback)

  • Web搜索引擎DirectHit就引入了一種文檔排序的思路,即對(duì)于某文檔蹲诀,如果用戶瀏覽的次數(shù)越多斑粱,它的排名越高。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末脯爪,一起剝皮案震驚了整個(gè)濱河市则北,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌痕慢,老刑警劉巖尚揣,帶你破解...
    沈念sama閱讀 219,110評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異掖举,居然都是意外死亡快骗,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門塔次,熙熙樓的掌柜王于貴愁眉苦臉地迎上來方篮,“玉大人,你說我怎么就攤上這事励负∨航Γ” “怎么了?”我有些...
    開封第一講書人閱讀 165,474評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵继榆,是天一觀的道長巾表。 經(jīng)常有香客問我汁掠,道長,這世上最難降的妖魔是什么集币? 我笑而不...
    開封第一講書人閱讀 58,881評(píng)論 1 295
  • 正文 為了忘掉前任调塌,我火速辦了婚禮,結(jié)果婚禮上惠猿,老公的妹妹穿的比我還像新娘羔砾。我一直安慰自己,他們只是感情好偶妖,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,902評(píng)論 6 392
  • 文/花漫 我一把揭開白布姜凄。 她就那樣靜靜地躺著,像睡著了一般趾访。 火紅的嫁衣襯著肌膚如雪态秧。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,698評(píng)論 1 305
  • 那天扼鞋,我揣著相機(jī)與錄音申鱼,去河邊找鬼。 笑死云头,一個(gè)胖子當(dāng)著我的面吹牛捐友,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播溃槐,決...
    沈念sama閱讀 40,418評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼匣砖,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了昏滴?” 一聲冷哼從身側(cè)響起猴鲫,我...
    開封第一講書人閱讀 39,332評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎谣殊,沒想到半個(gè)月后拂共,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,796評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡姻几,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,968評(píng)論 3 337
  • 正文 我和宋清朗相戀三年宜狐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鲜棠。...
    茶點(diǎn)故事閱讀 40,110評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡肌厨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出豁陆,到底是詐尸還是另有隱情柑爸,我是刑警寧澤,帶...
    沈念sama閱讀 35,792評(píng)論 5 346
  • 正文 年R本政府宣布盒音,位于F島的核電站表鳍,受9級(jí)特大地震影響馅而,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜譬圣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,455評(píng)論 3 331
  • 文/蒙蒙 一瓮恭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧厘熟,春花似錦屯蹦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至飘庄,卻和暖如春脑蠕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背跪削。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評(píng)論 1 272
  • 我被黑心中介騙來泰國打工谴仙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人碾盐。 一個(gè)月前我還...
    沈念sama閱讀 48,348評(píng)論 3 373
  • 正文 我出身青樓晃跺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親廓旬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子哼审,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,047評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • Solr&ElasticSearch原理及應(yīng)用 一、綜述 搜索 http://baike.baidu.com/it...
    樓外樓V閱讀 7,297評(píng)論 1 17
  • 前面的文章主要從理論的角度介紹了自然語言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)孕豹。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 13,914評(píng)論 2 64
  • 按:本文淺談信息檢索是什么十气,為什么励背,怎么做等問題,主要內(nèi)容是Manning等人著的《信息檢索導(dǎo)論》前八張的讀書筆記...
    紅色的Ricky閱讀 8,714評(píng)論 0 15
  • Alt+回車 導(dǎo)入包,自動(dòng)修正 Ctrl+N 查找類 Ctrl+Shift+N 查找文件 Ctrl+Alt+L ...
    誰在烽煙彼岸閱讀 227評(píng)論 0 1
  • 連著兩個(gè)晚上看完這本書砸西,在微盤下載的mobi版本非常好叶眉。 才知道這本書算是《達(dá)芬奇密碼》的前傳,而且2009年已經(jīng)...
    止末閱讀 764評(píng)論 0 5