詞袋模型表示
詞袋:一篇文檔由該文檔中出現(xiàn)的詞的集合所表示
- 集合是無(wú)序的
- 英文大小寫轉(zhuǎn)換
- 符號(hào)化識(shí)別詞語(yǔ)邊界(U.S.A)
- 詞語(yǔ)形態(tài)標(biāo)準(zhǔn)化——使用詞根Stemming
- 刪除后綴
- 基于某些特殊規(guī)則
- 可能結(jié)果不是詞語(yǔ)
- 不相關(guān)的詞,stemming結(jié)果可能相同
- 詞性還原——變?yōu)檎Z(yǔ)法原形Lemmatization
處理過(guò)程考慮不同的詞性 - 停用詞:不具有內(nèi)容信息的詞
- 大幅減少索引大小
- 減少索引時(shí)間
- 不能提高檢索效果
大部分互聯(lián)網(wǎng)搜索引擎不適用Stemming/Lemmatization溜宽,使用停用詞表
- 文檔集大献雅,各種詞形都能匹配上
- 不太考慮召回率
- Stemming結(jié)果不完美
優(yōu)點(diǎn): 簡(jiǎn)單有效
缺點(diǎn):忽略了詞之間的句法關(guān)系谦铃、篇章的結(jié)構(gòu)信息
文檔余弦相似度計(jì)算
需要保證兩個(gè)向量q和d的長(zhǎng)度均為n
二值表示:非1即0丈莺,沒(méi)有考慮詞頻哄孤,假設(shè)所有詞語(yǔ)同等重要
<br >
TF-IDF
倒排索引構(gòu)建與優(yōu)點(diǎn)
倒排索引
以關(guān)鍵詞為核心悴势,對(duì)文檔進(jìn)行索引钱贯。幫助快速找到文檔中的關(guān)鍵詞
可以看成鏈表數(shù)組
- 每個(gè)鏈表的表頭包含關(guān)鍵詞亡蓉,
- 后續(xù)單元是包括這個(gè)關(guān)鍵詞的文檔編號(hào),以及其他信息喷舀,如詞頻砍濒,該詞的位置等
問(wèn)題:查詢中包含多個(gè)關(guān)鍵詞時(shí)如何匹配
倒排索引優(yōu)勢(shì)
- 關(guān)鍵詞個(gè)數(shù)比文檔少,檢索效率高
- 特別適合信息檢索——查詢?cè)~一般很少硫麻,通過(guò)幾次查詢就能查詢到所有可能的文檔
倒排索引數(shù)據(jù)庫(kù)
- 關(guān)鍵詞查詢——B-Tree / Hash
- 文檔列表組織——二叉搜索樹(shù)
處理方法
- 索引壓縮
- 動(dòng)態(tài)索引
- 分布式索引
布爾檢索模型及其優(yōu)缺點(diǎn)
<br >
基于布爾代數(shù):
-
布爾操作符: AND爸邢, OR, NOT
根據(jù)信息需求構(gòu)造布爾查詢:
President Bill Clinton = > Clinton AND (Bill OR President)
優(yōu)點(diǎn):
- 簡(jiǎn)單
- 對(duì)結(jié)果嚴(yán)格掌控
缺點(diǎn):
- 一般用戶難以構(gòu)造布爾查詢拿愧,耗時(shí)耗力
- 檢索結(jié)果文檔無(wú)法排序——只能是匹配/不匹配
- 根據(jù)布爾運(yùn)算進(jìn)行嚴(yán)格匹配杠河,導(dǎo)致過(guò)多或過(guò)少的檢索結(jié)果
Web搜索架構(gòu)
PageRank算法
隨機(jī)游走模型(RW)
- 按頁(yè)面的權(quán)威性和流行度排序
- 為圖中的每個(gè)節(jié)點(diǎn)vi計(jì)算Pagerank值pi(vi)
- 可看做用戶隨機(jī)點(diǎn)擊鏈接將會(huì)達(dá)到特定網(wǎng)頁(yè)的可能性
頁(yè)面的Pagerank值與父節(jié)點(diǎn)的Rank值成正比,與父節(jié)點(diǎn)的出度成反比
步驟:
- 得到鄰接矩陣P
- 鄰接矩陣歸一化
問(wèn)題:
- 排序泄露:一個(gè)獨(dú)立的網(wǎng)頁(yè)沒(méi)有outlink -->得到不合理的Rank值浇辜,影響收斂速度
- 排序沉入:多個(gè)節(jié)點(diǎn)形成閉環(huán)(loop)券敌,且沒(méi)有outlink,不向外分發(fā)Rank --> 得到不合理Rank值柳洋,影響收斂速度
改進(jìn):RWwithRestart
隨機(jī)游走過(guò)程中開(kāi)始瀏覽一個(gè)新網(wǎng)頁(yè)
HITS算法
對(duì)于圖(子圖)中的每一個(gè)節(jié)點(diǎn)vi待诅,具有兩個(gè)屬性:
權(quán)威值authority——ai
一個(gè)頁(yè)面被越多重要頁(yè)面引用,則該頁(yè)面權(quán)威值越大
樞紐值hub——hi
一個(gè)好的樞紐頁(yè)面會(huì)鏈接到很多權(quán)威頁(yè)面
<font color = red>通過(guò)HITS計(jì)算得到的權(quán)威值樞紐值實(shí)際上就是鄰接矩陣的奇異向量</font>
信息檢索評(píng)價(jià)指標(biāo)MAP的計(jì)算
單個(gè)主題的平均準(zhǔn)確率是每篇相關(guān)文檔檢索出后的準(zhǔn)確率的平均值熊镣。主集合的平均準(zhǔn)確率(MAP)是每個(gè)主題的平均準(zhǔn)確率的平均值卑雁。MAP 是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)募书。系統(tǒng)檢索出來(lái)的相關(guān)文檔越靠前(rank 越高),MAP就可能越高测蹲。如果系統(tǒng)沒(méi)有返回相關(guān)文檔莹捡,則準(zhǔn)確率默認(rèn)為0。
例如:假設(shè)有兩個(gè)主題扣甲,主題1有4個(gè)相關(guān)網(wǎng)頁(yè)篮赢,主題2有5個(gè)相關(guān)網(wǎng)頁(yè)。某系統(tǒng)對(duì)于主題1檢索出4個(gè)相關(guān)網(wǎng)頁(yè)琉挖,其rank分別為1, 2, 4, 7荷逞;對(duì)于主題2檢索出3個(gè)相關(guān)網(wǎng)頁(yè),其rank分別為1,3,5粹排。對(duì)于主題1,平均準(zhǔn)確率為(1/1+2/2+3/4+4/7)/4=0.83涩澡。對(duì)于主題2顽耳,平均準(zhǔn)確率為(1/1+2/3+3/5+0+0)/5=0.45。則MAP= (0.83+0.45)/2=0.64妙同∩涓唬”
關(guān)聯(lián)規(guī)則挖掘過(guò)程與Apriori算法;
關(guān)聯(lián)規(guī)則:
反映一個(gè)事物與其它事物的相互依存性和關(guān)聯(lián)性粥帚。如果兩個(gè)事物存在關(guān)聯(lián)性胰耗,那么其中一個(gè)事物就能由另一個(gè)事物預(yù)測(cè)到。
事物 = 事物id + 項(xiàng)的子集
關(guān)聯(lián)規(guī)則(蘊(yùn)含式)
支持度sup(A,B)
置信度conf(A=>B) = P(B|A)
強(qiáng)關(guān)聯(lián)規(guī)則:滿足最小sup和最小conf的規(guī)則
關(guān)聯(lián)規(guī)則挖掘:兩個(gè)基本步驟
- 找出所有頻繁項(xiàng)集——滿足最小sup
- 找出所有強(qiáng)關(guān)聯(lián)規(guī)則——由頻繁項(xiàng)集生成芒涡,滿足最小conf
挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定
Apriori
定理: 頻繁項(xiàng)集的子集是頻繁項(xiàng)集
中心思想: 由頻繁k項(xiàng)集尋找頻繁k+1項(xiàng)集
方法:
- 找到頻繁1項(xiàng)集
- 擴(kuò)展頻繁k項(xiàng)集得到候選頻繁k+1項(xiàng)集
- 刪除不滿足最小sup的候選項(xiàng)集
- 連接:k項(xiàng)集之間連接生成可能的候選
- 剪枝:使用Apriori性質(zhì)柴灯,刪除具有非頻繁子集的候選項(xiàng)集
尋找關(guān)聯(lián)規(guī)則
需要使用條件概率!7丫 赠群!P{2,3->4} = P{2,3,4}/P{2,3}
挑戰(zhàn)
- 多次掃描事務(wù)數(shù)據(jù)庫(kù)
- 巨大數(shù)量的候選項(xiàng)集
- 繁重的計(jì)算候選項(xiàng)集支持度工作
樸素貝葉斯分類算法
K近鄰分類算法
分類與回歸的聯(lián)系與區(qū)別
K均值聚類算法
凝聚式聚類算法
半監(jiān)督聚類之COP K-means算法
自然語(yǔ)言處理領(lǐng)域的歧義現(xiàn)象
正向最大匹配分詞與逆向最大匹配分詞
無(wú)向圖度數(shù)中心性、中介中心性與親近中心性的計(jì)算(未規(guī)范化與規(guī)范化)
基于圖排序(PageRank)的文檔摘要方法
基于PMI的情感詞匯獲取方法及文本情感分類方法
步驟
只抽取包含形容詞或副詞的兩個(gè)詞構(gòu)成的短語(yǔ)
短語(yǔ)phrase的語(yǔ)義傾向
? SO(phrase) = PMI(phrase, “excellent”) –
PMI(phrase, “poor”)
文檔的語(yǔ)義傾向?yàn)樗卸陶Z(yǔ)語(yǔ)義傾向的平均值