軟件介紹
EasySpider是一款可視化爬蟲軟件慷妙,此軟件可以讓大家使用圖形化界面址儒,無代碼可視化的設(shè)計和執(zhí)行爬蟲任務(wù)芹枷。只需要在網(wǎng)頁上選擇自己想要爬的內(nèi)容并根據(jù)提示框操作即可完成爬蟲設(shè)計和執(zhí)行。同時軟件還可以以Web服務(wù)的方式進(jìn)行API調(diào)用莲趣,從而可以很方便的嵌入到其他系統(tǒng)中鸳慈。
以下是示例界面:
相關(guān)鏈接
代碼倉庫
Github倉庫地址,歡迎大家Star:
https://github.com/NaiboWang/EasySpider
下載 EasySpider
進(jìn)入Releases Page:https://github.com/NaiboWang/EasySpider/releases 下載最新版本喧伞。
視頻教程
Bilibili/B站視頻教程:
[EasySpider介紹:中國地震臺網(wǎng)采集案例](https://www.bilibili.com/video/BV1Fk4y1L7xX/)
[如何無代碼可視化的爬取需要登錄才能爬的網(wǎng)站](https://www.bilibili.com/video/BV1HV4y1r7v8)
[如何爬需要輸入驗證碼的網(wǎng)站](https://www.bilibili.com/video/BV18c411K7FH)
[流程圖執(zhí)行邏輯解析 - 58同城房源描述采集案例](https://www.bilibili.com/video/BV1YL411z7uW)
[MacOS系統(tǒng)設(shè)計和執(zhí)行eBay網(wǎng)站爬蟲任務(wù)教程](https://www.bilibili.com/video/BV1WL411h71r)
文檔
請暫時翻譯英文文檔:https://github.com/NaiboWang/EasySpider/wiki走芋,或看作者的碩士畢業(yè)論文:面向WEB應(yīng)用的智能化服務(wù)封裝系統(tǒng)設(shè)計與實現(xiàn)(主要看第三章和第五章)绩郎。
相關(guān)榮譽(yù)和出版物
1、? 作者本人通過此軟件完成了浙江大學(xué)碩士論文并取得了碩士學(xué)位翁逞。
2肋杖、? 獲得了中國國家發(fā)明專利授權(quán),作者是第一發(fā)明人挖函。
3状植、? 被CCF A頂級會議WWW 2023接收:https://dl.acm.org/doi/abs/10.1145/3543873.3587345
4、? 被微博81.6萬粉絲互聯(lián)網(wǎng)大V“愛可可-愛生活”轉(zhuǎn)發(fā)和宣傳: https://s.weibo.com/weibo?q=easyspider
樓主剛從美國參加WWW 2023回來怨喘,當(dāng)時很多人對該軟件感興趣津畸,下面是現(xiàn)場海報:
為什么要用EasySpider
相比其他可視化爬蟲軟件,EasySpider有以下優(yōu)勢:?
1.? 代碼開源必怜,因此可以進(jìn)行二次開發(fā)肉拓。?
2.? 完全免費(fèi),不同于八爪魚等軟件的“免費(fèi)”梳庆,EasySpider是一個無需登錄暖途,無限多開,無限機(jī)器部署的軟件膏执,不需要向作者本人支付一分錢丧肴。(當(dāng)然,EasySpider受到專利保護(hù)胧后,因此如果要商用,還請聯(lián)系浙江大學(xué)天道專利事務(wù)所)抱环。相比之下壳快,其他軟件的免費(fèi)有諸多限制,具體可以看他們的價格詳情頁镇草。?
3.? 安全眶痰,所有信息完全保存在用戶本地,包括任務(wù)和采集的數(shù)據(jù)梯啤,不用擔(dān)心數(shù)據(jù)泄露問題竖伯。?
4.? 跨平臺:同時支持Windows,Linux和MacOS因宇。?
5.? 速度快七婴,通常一個爬蟲任務(wù)只需要2-5分鐘即可設(shè)計完成,采集速度也快察滑,通常取決于具體機(jī)器環(huán)境打厘。?
6.? 更加靈活,保存的瀏覽器配置信息更多贺辰,最重要的是可擴(kuò)展户盯,自由的安裝各種插件嵌施,比如驗證碼識別插件,推薦以下插件來識別驗證碼:
從需求導(dǎo)向來說莽鸭,爬蟲算是一項基本的需求吗伤,我們經(jīng)常需要去爬一些網(wǎng)上的信息,比如對于科研工作者硫眨,爬取維基百科語料庫進(jìn)行訓(xùn)練是做NLP的同學(xué)經(jīng)常做的事情足淆;做社交網(wǎng)絡(luò)分析的同學(xué)經(jīng)常需要爬取Twitter和微博的信息;做推薦系統(tǒng)的同學(xué)會去爬購物網(wǎng)站的信息等等捺球。市面上爬蟲需求很多缸浦,這里就不在贅述了。有了EasySpider氮兵,不管大家之前會不會寫爬蟲裂逐,現(xiàn)在都可以不需要費(fèi)心費(fèi)力的寫代碼了。
軟件相關(guān)截圖
這些圖片來自我的碩士論文泣栈,這里只放圖卜高,具體這些圖是做什么的請大家去看我的碩士論文,因為太長了:
面向WEB應(yīng)用的智能化服務(wù)封裝系統(tǒng)設(shè)計與實現(xiàn).pdf
技術(shù)交流
由于EasySpider所有的算法設(shè)計南片,代碼實現(xiàn)以及文檔編寫都是我一個人完成的掺涛,所以項目肯定不如一個團(tuán)隊一起寫那么完善,而且很多功能我想開發(fā)也是心有余而力不足疼进,所以肯定有很多可以改進(jìn)的地方薪缆。由于代碼全部公開,所以大家可以自行fork之后進(jìn)行修改和添加新功能伞广,也歡迎大家提PR使得這個軟件的功能更加完善拣帽,共同構(gòu)建一個美好的開源社區(qū)。
對于軟件中涉及到的算法細(xì)節(jié)嚼锄,大家可以看樓主的碩士畢業(yè)論文减拭,里面寫的很詳細(xì):https://github.com/NaiboWang/EasySpider/blob/master/Docs/面向WEB應(yīng)用的智能化服務(wù)封裝系統(tǒng)設(shè)計與實現(xiàn).pdf對于軟件開發(fā)使用到的具體技術(shù),如chrome擴(kuò)展開發(fā)区丑,websocket的使用拧粪,ElectronJS跨平臺框架等等,大家可以在下載代碼之后去研究下我的寫法沧侥,我相信我的代碼寫法絕不是最好的可霎,甚至當(dāng)時由于想趕緊畢業(yè)所以只是想寫一個能用的demo出來所以可以說有些粗糙,比如耦合性太強(qiáng)宴杀,不夠模塊化等等啥纸,因此可改進(jìn)空間還有很多,歡迎大家提出意見和建議婴氮。
對于初學(xué)CS的學(xué)弟學(xué)妹來說斯棒,這個項目也算是不錯的樣例盾致,因為從開發(fā)角度來說,這個項目包含了前端開發(fā)荣暮,后臺開發(fā)庭惜,數(shù)據(jù)庫操作,瀏覽器擴(kuò)展開發(fā)等模塊穗酥;從算法角度來說护赊,這個項目包含了如深度優(yōu)先,廣度優(yōu)先砾跃,數(shù)據(jù)結(jié)構(gòu)骏啰,圖,編譯原理抽高,遞歸等等算法技巧判耕。大家如果想學(xué)習(xí),也許可以從這個項目源碼里學(xué)到一些知識翘骂。
最后壁熄,真心希望軟件可以幫到大家!