TF-IDF
和BM25
搜索引擎排序中常用到的兩種Score計(jì)算方式特漩,用于評(píng)估兩個(gè)文檔的相關(guān)度纤怒。本文會(huì)介紹下兩種算法的具體邏輯黄娘,并在一些維度上進(jìn)行對(duì)比峭状。
TF-IDF
TF-IDF
分為兩部分:TF和IDF。
TF(Term Frequency)代表詞頻逼争。詞頻是指當(dāng)前詞匯在文章中的次數(shù)优床。次數(shù)越多,一定程度說(shuō)明這個(gè)詞匯對(duì)于這個(gè)文章的重要性誓焦。
表示當(dāng)前詞在當(dāng)前文檔的出現(xiàn)的次數(shù)胆敞, 表示當(dāng)前文檔所有詞出現(xiàn)的總次數(shù)。
IDF(Inverse Document Frequency)稱為“逆文本頻率”杂伟。逆文本頻率是指該詞匯在已有文檔中出現(xiàn)過(guò)的文檔的占比移层,詞出現(xiàn)的頻率越高則重要性越低,比如在金融領(lǐng)域的文檔搜索中的"經(jīng)濟(jì)"一詞赫粥。
總文檔數(shù)观话, 包含詞語(yǔ) 的文件數(shù)目
最后
取值區(qū)間[0,+∞]
總結(jié)
TF-IDF的理論基礎(chǔ):df維度單文檔詞頻率越高越重要,idf維度文本頻率越小越重要傅是。
TF-IDF的劣勢(shì):
1)文檔分詞的準(zhǔn)確性并沒(méi)有絕對(duì)的保證
2)理論存在漏洞,不能覆蓋所有場(chǎng)景蕾羊,會(huì)導(dǎo)致精度丟失
BM25
BM25
是基于TF-IDF
改進(jìn)的算法喧笔,算法公式如下
為當(dāng)前文檔的長(zhǎng)度, 為當(dāng)前文檔庫(kù)中平均文檔長(zhǎng)度龟再。
改進(jìn)的地方书闸,主要對(duì)關(guān)聯(lián)度TF
做了調(diào)整。
1)增加參數(shù) 利凑,限制關(guān)聯(lián)度的取值浆劲,建議取值
2)引入 嫌术,把文檔的長(zhǎng)度作為關(guān)聯(lián)度的一個(gè)影響因素。理論依據(jù):篇幅越大的文檔牌借,單個(gè)詞的詞頻對(duì)整個(gè)文檔的影響因素越小度气。 作為一個(gè)參數(shù)因子,決定文檔長(zhǎng)度影響的程度膨报。建議取值 磷籍。
IDF
部分定義有效不同,但整體理論是一致的现柠。
總結(jié)
BM25
相對(duì)通常意義上 TF-IDF
在算法上有了更多可調(diào)參數(shù)院领,同時(shí)在大多數(shù)場(chǎng)景下BM25
有更好的表現(xiàn),但文本關(guān)聯(lián)度是一個(gè)復(fù)雜的業(yè)務(wù)領(lǐng)域够吩,BM25
也并非絕對(duì)完美比然。