2020-02-28
布爾模型
在查詢中使用 AND 遣妥、 OR 和 NOT
TF/IDF
tf(t in d) = √frequency
詞 t 在文檔 d 的詞頻( tf )是該詞在文檔中出現(xiàn)次數(shù)的平方根。
將參數(shù) index_options 設(shè)置為 docs 可以禁用詞頻統(tǒng)計(jì)及詞頻位置寝并,這個(gè)映射的字段不會(huì)計(jì)算詞的出現(xiàn)次數(shù),對(duì)于短語(yǔ)或近似查詢也不可用腹备。要求精確查詢的 not_analyzed 字符串字段會(huì)默認(rèn)使用該設(shè)置衬潦。
idf(t) = 1 + log ( numDocs / (docFreq + 1))
詞 t 的逆向文檔頻率( idf )是:索引中文檔數(shù)量除以所有包含該詞的文檔數(shù),然后求其對(duì)數(shù)植酥。
字段長(zhǎng)度歸一值
norm(d) = 1 / √numTerms
norm是字段中詞數(shù)平方根的倒數(shù)
舉例
vector space model
when search 'happy hippopotamus':
// of course 'hippopotamus' weighs more
happy hippopotamus => [2,5] (weight vectors)
then calculated in indices:
Document 1: (happy,____________)—[2,0]
Document 2: ( ___ ,hippopotamus)—[0,5]
Document 3: (happy,hippopotamus)—[2,5]
It appears that doc 3 is the most relevant one.