該系列合集會(huì)同步發(fā)布與 GitHub HomePage
以短語(yǔ)“原子能的應(yīng)用”為例,可以拆分成三個(gè)關(guān)鍵詞:“原子能”识腿、“的”和“應(yīng)用”
主要思想:詞出現(xiàn)次數(shù)較多的網(wǎng)頁(yè)應(yīng)該比它們出現(xiàn)較少的網(wǎng)頁(yè)相關(guān)性高
缺點(diǎn)一:篇幅長(zhǎng)度的影響
解決方案:根據(jù)篇幅長(zhǎng)度汰规,對(duì)關(guān)鍵詞次數(shù)進(jìn)行歸一化波附,即杂曲,稱為關(guān)鍵詞的“單文本詞頻” (Term Frequency)
此時(shí)诈火,要度量網(wǎng)頁(yè)與查詢之間的相關(guān)性兽赁,一個(gè)簡(jiǎn)單直接的方法就是:直接使用各個(gè)關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的總詞頻
若查詢包含N個(gè)關(guān)鍵詞,它們?cè)谀硞€(gè)特定網(wǎng)頁(yè)中的詞頻分別是冷守,則這個(gè)網(wǎng)頁(yè)的與該查詢之間的相關(guān)性為:
缺點(diǎn)二:“停止詞”的干擾
解決方案:在度量相關(guān)性時(shí)刀崖,不考慮這些詞的頻率
缺點(diǎn)三:沒(méi)有考慮不同關(guān)鍵詞的信息量。例如拍摇,“應(yīng)用”是個(gè)通用的詞亮钦,而“原子能”是個(gè)很專業(yè)的詞,后者在相關(guān)性評(píng)估中應(yīng)該比前者更重要
解決方案:對(duì)每個(gè)關(guān)鍵詞施加一個(gè)權(quán)重充活,這個(gè)權(quán)重的設(shè)定必須滿足:
預(yù)測(cè)主題的能力強(qiáng)蜂莉,則權(quán)重大,否則混卵,權(quán)重杏乘搿;
停止詞權(quán)重為0——不需要對(duì)第二個(gè)缺點(diǎn)做特殊的處理幕随,在這里就順帶解決了第二個(gè)問(wèn)題蚁滋;
這樣查詢與某個(gè)網(wǎng)頁(yè)之間的相關(guān)性就變成了:
其中,是第i個(gè)關(guān)鍵詞對(duì)應(yīng)的權(quán)重
那么具體該如何得到呢合陵?
基于這樣的常識(shí):如果一個(gè)關(guān)鍵詞只在很少的網(wǎng)頁(yè)中出現(xiàn)枢赔,通過(guò)它就容易鎖定搜索目標(biāo),它的權(quán)重就應(yīng)該大拥知;反之踏拜,如果一個(gè)詞在大量的網(wǎng)頁(yè)中都出現(xiàn),看到它仍然難以確定要找什么內(nèi)容低剔,那么它的權(quán)重應(yīng)該小
因此速梗,假定一個(gè)關(guān)鍵詞在個(gè)網(wǎng)頁(yè)中出現(xiàn)過(guò),那么越小襟齿,的權(quán)重就越大
在信息檢索中姻锁,使用最多的權(quán)重是“逆文本頻率指數(shù)” (Inverse Document Frequency, IDF)
參考資料:
(1) 吳軍《數(shù)學(xué)之美(第二版)》