#數(shù)據(jù)收集?
## 內(nèi)部數(shù)據(jù)收集
## 互聯(lián)網(wǎng)數(shù)據(jù)收集
### 爬蟲
### 爬蟲的工作模式:
提供一個(gè)或若干個(gè)初始網(wǎng)頁的地址, 獲得初始網(wǎng)頁上的URL列表,然后在抓取網(wǎng)頁的過程中瓶颠,不斷地從當(dāng)前頁面上抽取新的URL放入待爬隊(duì)列趣苏。
### 獲取新的URL的策略:
深度優(yōu)先篓跛、廣度優(yōu)先吓懈、最佳優(yōu)先
### 已有框架介紹Heritrix
# 數(shù)據(jù)存儲(chǔ)
# 數(shù)據(jù)處理
## 信息檢索
## 基礎(chǔ)算法
PageRank蝙眶、HITS:
## 工具
elasticsearch
solr
## 擴(kuò)展:推薦系統(tǒng)
## 推薦系統(tǒng)工具:mahout