WebDataMining_3

詞袋模型表示

詞袋:一篇文檔由該文檔中出現(xiàn)的詞的集合所表示

  • 集合是無(wú)序的
  • 英文大小寫轉(zhuǎn)換
  • 符號(hào)化識(shí)別詞語(yǔ)邊界(U.S.A)
  • 詞語(yǔ)形態(tài)標(biāo)準(zhǔn)化——使用詞根Stemming
    • 刪除后綴
    • 基于某些特殊規(guī)則
    • 可能結(jié)果不是詞語(yǔ)
    • 不相關(guān)的詞,stemming結(jié)果可能相同
  • 詞性還原——變?yōu)檎Z(yǔ)法原形Lemmatization
    處理過(guò)程考慮不同的詞性
  • 停用詞:不具有內(nèi)容信息的詞
    • 大幅減少索引大小
    • 減少索引時(shí)間
    • 不能提高檢索效果

大部分互聯(lián)網(wǎng)搜索引擎不適用Stemming/Lemmatization溜宽,使用停用詞表

  • 文檔集大献雅,各種詞形都能匹配上
  • 不太考慮召回率
  • Stemming結(jié)果不完美

優(yōu)點(diǎn): 簡(jiǎn)單有效

缺點(diǎn):忽略了詞之間的句法關(guān)系谦铃、篇章的結(jié)構(gòu)信息


文檔余弦相似度計(jì)算

需要保證兩個(gè)向量q和d的長(zhǎng)度均為n

二值表示:非1即0丈莺,沒(méi)有考慮詞頻哄孤,假設(shè)所有詞語(yǔ)同等重要

<br >

TF-IDF


倒排索引構(gòu)建與優(yōu)點(diǎn)

倒排索引

關(guān)鍵詞為核心悴势,對(duì)文檔進(jìn)行索引钱贯。幫助快速找到文檔中的關(guān)鍵詞
可以看成鏈表數(shù)組

  • 每個(gè)鏈表的表頭包含關(guān)鍵詞亡蓉,
  • 后續(xù)單元是包括這個(gè)關(guān)鍵詞的文檔編號(hào),以及其他信息喷舀,如詞頻砍濒,該詞的位置
問(wèn)題:查詢中包含多個(gè)關(guān)鍵詞時(shí)如何匹配
倒排索引優(yōu)勢(shì)
  • 關(guān)鍵詞個(gè)數(shù)比文檔少,檢索效率高
  • 特別適合信息檢索——查詢?cè)~一般很少硫麻,通過(guò)幾次查詢就能查詢到所有可能的文檔
倒排索引數(shù)據(jù)庫(kù)
  • 關(guān)鍵詞查詢——B-Tree / Hash
  • 文檔列表組織——二叉搜索樹(shù)
處理方法
  • 索引壓縮
  • 動(dòng)態(tài)索引
  • 分布式索引

布爾檢索模型及其優(yōu)缺點(diǎn)

<br >

基于布爾代數(shù):
  • 布爾操作符: AND爸邢, OR, NOT


    布爾操作符語(yǔ)義
根據(jù)信息需求構(gòu)造布爾查詢:

President Bill Clinton = > Clinton AND (Bill OR President)

優(yōu)點(diǎn):
  • 簡(jiǎn)單
  • 對(duì)結(jié)果嚴(yán)格掌控
缺點(diǎn):
  • 一般用戶難以構(gòu)造布爾查詢拿愧,耗時(shí)耗力
  • 檢索結(jié)果文檔無(wú)法排序——只能是匹配/不匹配
  • 根據(jù)布爾運(yùn)算進(jìn)行嚴(yán)格匹配杠河,導(dǎo)致過(guò)多或過(guò)少的檢索結(jié)果

Web搜索架構(gòu)

Web搜索架構(gòu)

PageRank算法

隨機(jī)游走模型(RW)

  • 按頁(yè)面的權(quán)威性和流行度排序
  • 為圖中的每個(gè)節(jié)點(diǎn)vi計(jì)算Pagerank值pi(vi)
  • 可看做用戶隨機(jī)點(diǎn)擊鏈接將會(huì)達(dá)到特定網(wǎng)頁(yè)的可能性

頁(yè)面的Pagerank值與父節(jié)點(diǎn)的Rank值成正比,與父節(jié)點(diǎn)的出度成反比

步驟:

  • 得到鄰接矩陣P
  • 鄰接矩陣歸一化
pi

問(wèn)題:

  • 排序泄露:一個(gè)獨(dú)立的網(wǎng)頁(yè)沒(méi)有outlink -->得到不合理的Rank值浇辜,影響收斂速度
  • 排序沉入:多個(gè)節(jié)點(diǎn)形成閉環(huán)(loop)券敌,且沒(méi)有outlink,不向外分發(fā)Rank --> 得到不合理Rank值柳洋,影響收斂速度

改進(jìn):RWwithRestart

隨機(jī)游走過(guò)程中開(kāi)始瀏覽一個(gè)新網(wǎng)頁(yè)

改進(jìn)隨機(jī)游走

HITS算法

對(duì)于圖(子圖)中的每一個(gè)節(jié)點(diǎn)vi待诅,具有兩個(gè)屬性:
權(quán)威值authority——ai
一個(gè)頁(yè)面被越多重要頁(yè)面引用,則該頁(yè)面權(quán)威值越大
樞紐值hub——hi
一個(gè)好的樞紐頁(yè)面會(huì)鏈接到很多權(quán)威頁(yè)面

HITS算法
Paste_Image.png
奇異值

<font color = red>通過(guò)HITS計(jì)算得到的權(quán)威值樞紐值實(shí)際上就是鄰接矩陣的奇異向量</font>


信息檢索評(píng)價(jià)指標(biāo)MAP的計(jì)算

單個(gè)主題的平均準(zhǔn)確率是每篇相關(guān)文檔檢索出后的準(zhǔn)確率的平均值熊镣。主集合的平均準(zhǔn)確率(MAP)是每個(gè)主題的平均準(zhǔn)確率的平均值卑雁。MAP 是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)募书。系統(tǒng)檢索出來(lái)的相關(guān)文檔越靠前(rank 越高),MAP就可能越高测蹲。如果系統(tǒng)沒(méi)有返回相關(guān)文檔莹捡,則準(zhǔn)確率默認(rèn)為0。
例如:假設(shè)有兩個(gè)主題扣甲,主題1有4個(gè)相關(guān)網(wǎng)頁(yè)篮赢,主題2有5個(gè)相關(guān)網(wǎng)頁(yè)。某系統(tǒng)對(duì)于主題1檢索出4個(gè)相關(guān)網(wǎng)頁(yè)琉挖,其rank分別為1, 2, 4, 7荷逞;對(duì)于主題2檢索出3個(gè)相關(guān)網(wǎng)頁(yè),其rank分別為1,3,5粹排。對(duì)于主題1,平均準(zhǔn)確率為(1/1+2/2+3/4+4/7)/4=0.83涩澡。對(duì)于主題2顽耳,平均準(zhǔn)確率為(1/1+2/3+3/5+0+0)/5=0.45。則MAP= (0.83+0.45)/2=0.64妙同∩涓唬”


Paste_Image.png

關(guān)聯(lián)規(guī)則挖掘過(guò)程與Apriori算法;

關(guān)聯(lián)規(guī)則:

反映一個(gè)事物與其它事物的相互依存性和關(guān)聯(lián)性粥帚。如果兩個(gè)事物存在關(guān)聯(lián)性胰耗,那么其中一個(gè)事物就能由另一個(gè)事物預(yù)測(cè)到。

事物 = 事物id + 項(xiàng)的子集

關(guān)聯(lián)規(guī)則(蘊(yùn)含式)

關(guān)聯(lián)規(guī)則蘊(yùn)含式

支持度sup(A,B)
置信度conf(A=>B) = P(B|A)

強(qiáng)關(guān)聯(lián)規(guī)則:滿足最小sup和最小conf的規(guī)則

關(guān)聯(lián)規(guī)則挖掘:兩個(gè)基本步驟

  1. 找出所有頻繁項(xiàng)集——滿足最小sup
  2. 找出所有強(qiáng)關(guān)聯(lián)規(guī)則——由頻繁項(xiàng)集生成芒涡,滿足最小conf

挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定

Apriori

定理: 頻繁項(xiàng)集的子集是頻繁項(xiàng)集

中心思想: 由頻繁k項(xiàng)集尋找頻繁k+1項(xiàng)集

方法:

  • 找到頻繁1項(xiàng)集
  • 擴(kuò)展頻繁k項(xiàng)集得到候選頻繁k+1項(xiàng)集
  • 刪除不滿足最小sup的候選項(xiàng)集
  • 連接:k項(xiàng)集之間連接生成可能的候選
  • 剪枝:使用Apriori性質(zhì)柴灯,刪除具有非頻繁子集的候選項(xiàng)集

尋找關(guān)聯(lián)規(guī)則

需要使用條件概率!7丫 赠群!P{2,3->4} = P{2,3,4}/P{2,3}

挑戰(zhàn)

  1. 多次掃描事務(wù)數(shù)據(jù)庫(kù)
  2. 巨大數(shù)量的候選項(xiàng)集
  3. 繁重的計(jì)算候選項(xiàng)集支持度工作

樸素貝葉斯分類算法

Paste_Image.png

K近鄰分類算法


分類與回歸的聯(lián)系與區(qū)別


K均值聚類算法


凝聚式聚類算法


半監(jiān)督聚類之COP K-means算法


自然語(yǔ)言處理領(lǐng)域的歧義現(xiàn)象


正向最大匹配分詞與逆向最大匹配分詞


無(wú)向圖度數(shù)中心性、中介中心性與親近中心性的計(jì)算(未規(guī)范化與規(guī)范化)


基于圖排序(PageRank)的文檔摘要方法

Paste_Image.png

基于PMI的情感詞匯獲取方法及文本情感分類方法

步驟
只抽取包含形容詞或副詞的兩個(gè)詞構(gòu)成的短語(yǔ)
短語(yǔ)phrase的語(yǔ)義傾向
? SO(phrase) = PMI(phrase, “excellent”) –
PMI(phrase, “poor”)
文檔的語(yǔ)義傾向?yàn)樗卸陶Z(yǔ)語(yǔ)義傾向的平均值


基于用戶/物品的協(xié)同推薦算法


基于矩陣分解的協(xié)同推薦算法


智能問(wèn)答系統(tǒng)架構(gòu)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末旱幼,一起剝皮案震驚了整個(gè)濱河市查描,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌柏卤,老刑警劉巖冬三,帶你破解...
    沈念sama閱讀 211,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異缘缚,居然都是意外死亡勾笆,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門桥滨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)匠襟,“玉大人钝侠,你說(shuō)我怎么就攤上這事∷嵘幔” “怎么了帅韧?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,435評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)啃勉。 經(jīng)常有香客問(wèn)我忽舟,道長(zhǎng),這世上最難降的妖魔是什么淮阐? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,509評(píng)論 1 284
  • 正文 為了忘掉前任叮阅,我火速辦了婚禮,結(jié)果婚禮上泣特,老公的妹妹穿的比我還像新娘浩姥。我一直安慰自己,他們只是感情好状您,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,611評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布勒叠。 她就那樣靜靜地躺著,像睡著了一般膏孟。 火紅的嫁衣襯著肌膚如雪眯分。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,837評(píng)論 1 290
  • 那天柒桑,我揣著相機(jī)與錄音弊决,去河邊找鬼。 笑死魁淳,一個(gè)胖子當(dāng)著我的面吹牛飘诗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播界逛,決...
    沈念sama閱讀 38,987評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼疚察,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了仇奶?” 一聲冷哼從身側(cè)響起貌嫡,我...
    開(kāi)封第一講書(shū)人閱讀 37,730評(píng)論 0 267
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎该溯,沒(méi)想到半個(gè)月后岛抄,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,194評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡狈茉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,525評(píng)論 2 327
  • 正文 我和宋清朗相戀三年夫椭,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片氯庆。...
    茶點(diǎn)故事閱讀 38,664評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蹭秋,死狀恐怖扰付,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情仁讨,我是刑警寧澤羽莺,帶...
    沈念sama閱讀 34,334評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站洞豁,受9級(jí)特大地震影響盐固,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜丈挟,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,944評(píng)論 3 313
  • 文/蒙蒙 一刁卜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧曙咽,春花似錦蛔趴、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,764評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至茉继,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蚀乔,已是汗流浹背烁竭。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,997評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吉挣,地道東北人派撕。 一個(gè)月前我還...
    沈念sama閱讀 46,389評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像睬魂,于是被迫代替她去往敵國(guó)和親终吼。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,554評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容

  • 這個(gè)系列的第六個(gè)主題氯哮,主要談一些搜索引擎相關(guān)的常見(jiàn)技術(shù)际跪。 1995年是搜索引擎商業(yè)公司發(fā)展的重要起點(diǎn),《淺談推薦系...
    我偏笑_NSNirvana閱讀 6,610評(píng)論 3 24
  • Solr&ElasticSearch原理及應(yīng)用 一喉钢、綜述 搜索 http://baike.baidu.com/it...
    樓外樓V閱讀 7,262評(píng)論 1 17
  • 前言 其實(shí)讀完斯坦福的這本《互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘》姆打,讓我感覺(jué)到,什么是人工智能肠虽?人工智能就是更高層次的數(shù)據(jù)挖掘幔戏。機(jī)...
    我偏笑_NSNirvana閱讀 12,543評(píng)論 1 23
  • 利用回歸預(yù)測(cè)數(shù)值型數(shù)據(jù) 線性回歸 前面講的都是監(jiān)督學(xué)習(xí)中的分類,訓(xùn)練出可以判斷樣本類別的模型税课,而回歸的目的是預(yù)測(cè)數(shù)...
    我偏笑_NSNirvana閱讀 9,551評(píng)論 4 50
  • 朋友的生日party 你在場(chǎng) 我在場(chǎng) 眾目睽睽之下 你撩她 殷勤獻(xiàn)花倒酒唱歌 耳鬢廝磨著卿卿我我 假借跳舞 深度...
    深山老林千年桃妖閱讀 388評(píng)論 0 0