WebHunter是最近開發(fā)的一款新聞爬蟲系統(tǒng)物邑,它分為手動和自動兩種模式,可以基于web容器如tomcat運行,也能夠作為客戶端獨立運行在命令行模式下,而且能夠擴充為GUI客戶端辅鲸。
本文是對WebHunter爬蟲系統(tǒng)的介紹。旨在提供一份較為明晰的文檔指導用戶使用腹殿。
手動模式
- 手動模式基于web平臺独悴,部署應用之后訪問對應的url,此處是本地模式锣尉,即
http://localhost:8080/EducationNewsHunterSpider/ 如圖 - 輸入需要爬取的頁面绵患,以騰訊新聞模塊為主要對象,以http://edu.qq.com/edunew/為根路徑
此處選取目標鏈接為http://edu.qq.com/a/20160727/038940.htm悟耘,
其內容為
- 輸入目標鏈接到輸入框,點擊提交
![X@Y4VD5QWZXPK]RV8O`86KS.png](http://upload-images.jianshu.io/upload_images/120808-ac89c8740845d9c3.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) -
上方紅字會提示抓取結果是否成功
-
返回結果為“數(shù)據(jù)添加成功织狐,請繼續(xù)添加”暂幼,查看數(shù)據(jù)庫確認是否持久化成功
-
打開新聞展示頁面,進一步確認結果
- 手動模式運行方式基本如上所述
自動模式移迫,自動模式有兩種啟動方式
a. 命令行模式
b. web模式
命令行模式
-
應用已經打包為JavaSE的jar file旺嬉,因此可以在命令行中通過java -jar filename加載,如圖
-
命令行下顯示為“持久化成功”的則可以在數(shù)據(jù)庫中查看到厨埋,內部邏輯已經打包在jar中不對外顯示
web模式
-
這里和手動方式相同邪媳,通過http://localhost:8080/EducationNewsHunterSpider/進入啟動頁
-
在上方自動模式區(qū)域輸入要調用的線程數(shù)量,以及命令模式“on”/“off”
這里輸入線程數(shù)為3選取on點擊submit
-
進入實時抓取頁面荡陷,并顯示當前掃描到的url
-
同時在控制臺也能實時同步抓取數(shù)據(jù)情況
-
如果想要手動強制取消抓取進程雨效,點擊web界面中的“返回首頁”
-
在首頁上方選取“off”選項,submit
即可停止抓取序列
小結
本文主要從操作上對WebHunter整體做了一個詳細的講解废赞,旨在為使用者提供一個演示文檔徽龟,從而能夠更直觀的使用該工具抓取新聞頁面。