三 搜索引擎的分析系統(tǒng)

1目標工作

信息抽取并結構化網頁
網頁銷重
中文分詞
PageRank計算

html語言

用于創(chuàng)建存儲在www服務器上的文件并且能由瀏覽器瀏覽,簡單易用,不需要編譯.

瞄文本(anchor text)

關于鏈接的一段描述,通常以文本或者圖片方式存在.指向文本中的某一位置或者其他網頁.
eg:<a >走進搜索引擎</a>用來描述一個鏈接

半結構化數(shù)據(jù)

html語言的基本特點:標簽方式標識網頁信息

2 信息抽取及網頁信息結構化

對于分析系統(tǒng)來說,基礎工作就是分門別類的從半結構化網頁中提取有價值的能夠代表網頁的屬性.eg:瞄文本,標題,正文等,并將這些屬性結合組成網頁對象.
這種處理稱為"網頁結構化"

2.1 網頁結構化的目標

針對搜索的需要,將HTML網頁數(shù)據(jù)按照基本屬性抽取,而后打包(wrap)出一個網頁對象

1)瞄文本
2)標題(title)<title>網頁制作者編寫
3)正文標題(content title)<titile>網頁編輯者編寫
4)正文(content)<div><table><p>等
5)正向鏈接(link)

一個結構化過程

網頁結構化過程

注:這個過程分為兩個步驟
1)建立html標簽樹
2)通過投票方式識別正文的文本塊,并按深度優(yōu)先遍歷的規(guī)則組織為正文

2.2 建立HTML標簽樹

基于html標簽成對出現(xiàn)的問題,利用棧來進行處理.

從html網頁到結構化網頁

2.3 投票方式得到正文.

正文比較復雜,沒有明顯的標簽標記正文;正文可能分割在多個html標簽中.

三類文本塊
1)主題文本塊(topic)
2)目錄性文本塊(hub)
3)圖片型文本塊(pic)

判斷哪個文本塊是正文采用"投票算法"計算方法,類似權重問題.

獲取文本塊之后的工作就是組織文本塊了.采用深度遍歷標簽樹的方式進行處理.

網頁存儲采用結構化方式進行處理.類似文件壓縮.分析過程使用標簽樹(BeautifulSoup...)

3.1?網頁查重

重復情況
1)內容和格式完全相同
2)內容相同,格式不同
3)部分重要內容相同并且格式相同
4)部分重要內容相同但是格式不


網頁相似的4中形式

基本方案是使用簽名值的方式進行判別

3.2 查重實現(xiàn)方法

I-Match算法:假設 最高頻,最低頻詞不能代表文檔本質.,所以,去掉最高,最低詞頻詞,然后進行簽名處理

Single算法:抽取多個特征詞匯,通過比較兩個特征詞集的相似度來實現(xiàn)文檔查重.

Single示例

Single算法結論:

對于長度為L的文檔,每隔N個漢字取一個Single這樣一共得到L-N+1個Single,可見N的取值對效率和效果影響很大.N取值2-L.

大規(guī)模文檔查重使維護一個hashtable或者bloom就可以.

Single算法略麻煩:Jaccard系數(shù),用來判斷集合的相似度J = (A&B)/(A|B)

然后定義一個標準相似度值eg:0.2判定為相似.

方案比較
I-Match:需要提取分詞,并計算詞頻,提取特征比較復雜,但是是否相似的計算計較簡單

Single算法:提取特真簡單,但是文檔是否相似計算 復雜.

Single算法性能上表現(xiàn)優(yōu)異,所以廣泛使用

總結:網頁查重三個步驟:
1)特征抽取
2)相似度計算
3)消重

4 中文分詞

1.目前的分詞手段依賴字典和統(tǒng)計學方法
2.通過查字典實現(xiàn)分詞

三種難以區(qū)分類型

1)交集型歧義
"從小學": ?從小/學/電腦 ?從/小學/畢業(yè) ?
2)組合型歧義
"中將" : 美軍/中將/竟然... ? ?新建地鐵中/將/禁止商業(yè)擺攤
3)混合型歧義
"人才能": 人才/能 ? ? 人/才能 ? ? 人/才/能

對于字典方式進行分詞:
字典采用前綴樹或者后綴樹的結構存儲

注:雙圓圈表示一個詞尾

前綴樹結構的字典組織形式

注:對于后綴樹:雙圓圈表示一個詞頭

后綴樹的字典組織形式

兩種匹配方式

"最大正向匹配法(MM法)"
"逆向最大匹配法(RMM)"
這類分詞方法稱為貪婪算法:最大匹配最優(yōu)
貪婪算法導致局部最優(yōu)

"N-Gram方法":可以滿足由于錯分詞帶來的損失.
eg:2-Gram.類似Single方式,獲取2步長的所有分詞作為索引.

N-方法雖然有效避免錯誤詞典分詞導致索引不完整,可能導致過多的關鍵詞成為索引項.不經濟

ps:沒有一種方式能夠解決所有的問題.然,字典分詞方式作為主流分詞方法解決大部分分詞問題.但是字典總是滯后于語言的發(fā)展.
所以,如果能夠及時,自動的,準確的發(fā)現(xiàn)新詞,才能最大化字典分詞方案.新詞發(fā)現(xiàn)主要通過統(tǒng)計推斷來實現(xiàn).

基于統(tǒng)計的新詞發(fā)現(xiàn)

5 PageRank(網頁排名)

5.1 基本思想

網頁重要性:
1)認可度越高backlink越多
2)反向連接的源網頁質量越高,所指向的網頁越重要
3)鏈接數(shù)越少的網頁越重要

具體實現(xiàn)依賴數(shù)學高度.參考

PageRank算法簡介及Map-Reduce實現(xiàn)

6 分析系統(tǒng)結構圖

分析系統(tǒng)主要承擔:網頁結構化,網頁消重,文本分詞及pageRank等4項基本任務.
結構圖:

分析系統(tǒng)結構圖

注解:Page庫是通過爬蟲下載到的原始網頁,分析系統(tǒng)通過以下步驟進行網頁分析:

1)結構化過程:建立標簽樹,并提取有價值的樹形,完成從原始網頁打包為網頁對象的過程
2)網頁消重模塊
3)文本分詞將文本切分為以詞匯為單位的集合
4)將分析的結果發(fā)往索引模塊,進行索引入庫

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末料皇,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子淌实,更是在濱河造成了極大的恐慌缩搅,老刑警劉巖越败,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異硼瓣,居然都是意外死亡究飞,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來亿傅,“玉大人霉祸,你說我怎么就攤上這事「だ” “怎么了丝蹭?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長坪蚁。 經常有香客問我奔穿,道長,這世上最難降的妖魔是什么敏晤? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任贱田,我火速辦了婚禮,結果婚禮上嘴脾,老公的妹妹穿的比我還像新娘男摧。我一直安慰自己,他們只是感情好译打,可當我...
    茶點故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布耗拓。 她就那樣靜靜地躺著,像睡著了一般奏司。 火紅的嫁衣襯著肌膚如雪乔询。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天韵洋,我揣著相機與錄音竿刁,去河邊找鬼。 笑死搪缨,一個胖子當著我的面吹牛食拜,可吹牛的內容都是我干的。 我是一名探鬼主播副编,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼负甸,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了齿桃?” 一聲冷哼從身側響起惑惶,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤煮盼,失蹤者是張志新(化名)和其女友劉穎短纵,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體香到,經...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了悠就。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片千绪。...
    茶點故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡荸型,死狀恐怖,靈堂內的尸體忽然破棺而出瑞妇,到底是詐尸還是另有隱情辕狰,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布碉渡,位于F島的核電站,受9級特大地震影響骤宣,放射性物質發(fā)生泄漏序愚。R本人自食惡果不足惜爸吮,卻給世界環(huán)境...
    茶點故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望厨剪。 院中可真熱鬧,春花似錦屡立、人聲如沸直晨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至着撩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間赂乐,已是汗流浹背挨措。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工浅役, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瞪讼。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓背亥,卻偏偏與公主長得像狡汉,于是被迫代替她去往敵國和親娄徊。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內容

  • 鏈接分析 我們在最開始說過盾戴,搜索引擎在查找能夠滿足用戶需求的網頁時寄锐,主要會考慮兩方面的因素,一方面是用戶發(fā)出的查詢...
    我偏笑_NSNirvana閱讀 3,219評論 1 12
  • 這個系列的第六個主題尖啡,主要談一些搜索引擎相關的常見技術橄仆。 1995年是搜索引擎商業(yè)公司發(fā)展的重要起點,《淺談推薦系...
    我偏笑_NSNirvana閱讀 6,619評論 3 24
  • 查詢系統(tǒng)直接面對用戶,在接受用戶的查詢請求后,通過檢索,排序及摘要提取等計算,將結果組織成搜索結果返回給用戶 特點...
    狼之足跡閱讀 1,245評論 0 3
  • 興趣是第一源動力衅斩,很多職業(yè)最初的起源來自于個人對某一事物的好奇盆顾,由此產生了興趣而一發(fā)不可收拾,產品經理也不例外畏梆。產...
    纏道禪閱讀 369評論 0 1
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理您宪,服務發(fā)現(xiàn),斷路器奠涌,智...
    卡卡羅2017閱讀 134,657評論 18 139