第三篇:自己動手挖掘Web數(shù)據(jù)
存儲鏈接之間的關(guān)系矾睦,小型的可以放在內(nèi)存中悟衩,大的在內(nèi)存數(shù)據(jù)庫中建立鏈接關(guān)系。
Web圖包含出度和入度信息矾飞,可以根據(jù)這個對鏈接進(jìn)行排序一膨。
PageRank算法,一個網(wǎng)頁重要程度依賴于它的入鏈洒沦,高等級的文件鏈接到網(wǎng)頁豹绪,則此網(wǎng)頁的等級也高。
HITS算法申眼,網(wǎng)頁賦兩個值hub和authority ... ...
去掉重復(fù)的文檔:a> 可以比較checksum值判斷完全相同的文檔瞒津〔跻拢可以用MD5算法計算checksum值。 b> 文檔結(jié)構(gòu)化再生成語義指紋巷蚪,
分類與聚類:機(jī)器學(xué)習(xí)病毡。