spider.jpg
什么是網(wǎng)絡(luò)爬蟲俭缓?
維基百科
網(wǎng)絡(luò)爬蟲(英語:web crawler),也叫網(wǎng)絡(luò)蜘蛛(spider)敌呈,是一種用來自動瀏覽萬維網(wǎng)的網(wǎng)絡(luò)機(jī)器人责静。其目的一般為編纂網(wǎng)絡(luò)索引。
百度百科
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛星虹,網(wǎng)絡(luò)機(jī)器人零抬,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者)宽涌,是一種按照一定的規(guī)則平夜,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻卸亮、自動索引忽妒、模擬程序或者蠕蟲。
java網(wǎng)絡(luò)爬蟲練習(xí)項目
一個比較簡單的java練習(xí)項目兼贸。
需要知識
- 什么是網(wǎng)絡(luò)爬蟲
- Java基礎(chǔ)
- 正則表達(dá)式
項目思路
在慕課網(wǎng)的猿問頁面段直,尋找一個你喜歡的問題頁面,利用http請求獲取問題頁面的源碼溶诞,然后通過正則表達(dá)式鸯檬,不斷爬取相關(guān)問題頁面。
項目介紹
該項目存在三個類
Imooc.java :
imooc問題bean類
Spider.java:
封裝用來爬取頁面的方法類
Main.java:
運行起始頁面
- Imooc.java類是要爬取內(nèi)容的對象類螺垢,屬性成員有問題喧务,問題鏈接赖歌,問題描述,答案列表和下一個問題鏈接功茴。
- Spider.java類封裝了2個可能用到的方法庐冯,getSource方法獲取網(wǎng)頁源代碼和getImoocPage獲取頁面Url列表。
項目源碼
IMOOCSpider項目已上傳到我的github上----傳送門
歡迎Star
下載下來后導(dǎo)入eclipse即可運行坎穿。
項目運行結(jié)果
Paste_Image.png