無代碼可視化開源爬蟲軟件EasySpider,希望能幫到大家


軟件介紹

EasySpider是一款可視化爬蟲軟件慷妙,此軟件可以讓大家使用圖形化界面址儒,無代碼可視化的設(shè)計和執(zhí)行爬蟲任務(wù)芹枷。只需要在網(wǎng)頁上選擇自己想要爬的內(nèi)容并根據(jù)提示框操作即可完成爬蟲設(shè)計和執(zhí)行。同時軟件還可以以Web服務(wù)的方式進(jìn)行API調(diào)用莲趣,從而可以很方便的嵌入到其他系統(tǒng)中鸳慈。

以下是示例界面:


相關(guān)鏈接



代碼倉庫

Github倉庫地址,歡迎大家Star:

https://github.com/NaiboWang/EasySpider

下載 EasySpider

進(jìn)入Releases Page:https://github.com/NaiboWang/EasySpider/releases 下載最新版本喧伞。

視頻教程

Bilibili/B站視頻教程:

[EasySpider介紹:中國地震臺網(wǎng)采集案例](https://www.bilibili.com/video/BV1Fk4y1L7xX/)

[如何無代碼可視化的爬取需要登錄才能爬的網(wǎng)站](https://www.bilibili.com/video/BV1HV4y1r7v8)

[如何爬需要輸入驗證碼的網(wǎng)站](https://www.bilibili.com/video/BV18c411K7FH)

[流程圖執(zhí)行邏輯解析 - 58同城房源描述采集案例](https://www.bilibili.com/video/BV1YL411z7uW)

[MacOS系統(tǒng)設(shè)計和執(zhí)行eBay網(wǎng)站爬蟲任務(wù)教程](https://www.bilibili.com/video/BV1WL411h71r)

文檔

請暫時翻譯英文文檔:https://github.com/NaiboWang/EasySpider/wiki走芋,或看作者的碩士畢業(yè)論文:面向WEB應(yīng)用的智能化服務(wù)封裝系統(tǒng)設(shè)計與實現(xiàn)(主要看第三章和第五章)绩郎。

相關(guān)榮譽(yù)和出版物

1、? 作者本人通過此軟件完成了浙江大學(xué)碩士論文并取得了碩士學(xué)位翁逞。

2肋杖、? 獲得了中國國家發(fā)明專利授權(quán),作者是第一發(fā)明人挖函。

3状植、? 被CCF A頂級會議WWW 2023接收:https://dl.acm.org/doi/abs/10.1145/3543873.3587345

4、? 被微博81.6萬粉絲互聯(lián)網(wǎng)大V“愛可可-愛生活”轉(zhuǎn)發(fā)和宣傳: https://s.weibo.com/weibo?q=easyspider


樓主剛從美國參加WWW 2023回來怨喘,當(dāng)時很多人對該軟件感興趣津畸,下面是現(xiàn)場海報:


為什么要用EasySpider

相比其他可視化爬蟲軟件,EasySpider有以下優(yōu)勢:?

1.? 代碼開源必怜,因此可以進(jìn)行二次開發(fā)肉拓。?

2.? 完全免費(fèi),不同于八爪魚等軟件的“免費(fèi)”梳庆,EasySpider是一個無需登錄暖途,無限多開,無限機(jī)器部署的軟件膏执,不需要向作者本人支付一分錢丧肴。(當(dāng)然,EasySpider受到專利保護(hù)胧后,因此如果要商用,還請聯(lián)系浙江大學(xué)天道專利事務(wù)所)抱环。相比之下壳快,其他軟件的免費(fèi)有諸多限制,具體可以看他們的價格詳情頁镇草。?

3.? 安全眶痰,所有信息完全保存在用戶本地,包括任務(wù)和采集的數(shù)據(jù)梯啤,不用擔(dān)心數(shù)據(jù)泄露問題竖伯。?

4.? 跨平臺:同時支持Windows,Linux和MacOS因宇。?

5.? 速度快七婴,通常一個爬蟲任務(wù)只需要2-5分鐘即可設(shè)計完成,采集速度也快察滑,通常取決于具體機(jī)器環(huán)境打厘。?

6.? 更加靈活,保存的瀏覽器配置信息更多贺辰,最重要的是可擴(kuò)展户盯,自由的安裝各種插件嵌施,比如驗證碼識別插件,推薦以下插件來識別驗證碼:

從需求導(dǎo)向來說莽鸭,爬蟲算是一項基本的需求吗伤,我們經(jīng)常需要去爬一些網(wǎng)上的信息,比如對于科研工作者硫眨,爬取維基百科語料庫進(jìn)行訓(xùn)練是做NLP的同學(xué)經(jīng)常做的事情足淆;做社交網(wǎng)絡(luò)分析的同學(xué)經(jīng)常需要爬取Twitter和微博的信息;做推薦系統(tǒng)的同學(xué)會去爬購物網(wǎng)站的信息等等捺球。市面上爬蟲需求很多缸浦,這里就不在贅述了。有了EasySpider氮兵,不管大家之前會不會寫爬蟲裂逐,現(xiàn)在都可以不需要費(fèi)心費(fèi)力的寫代碼了。


軟件相關(guān)截圖

這些圖片來自我的碩士論文泣栈,這里只放圖卜高,具體這些圖是做什么的請大家去看我的碩士論文,因為太長了:

面向WEB應(yīng)用的智能化服務(wù)封裝系統(tǒng)設(shè)計與實現(xiàn).pdf


技術(shù)交流

由于EasySpider所有的算法設(shè)計南片,代碼實現(xiàn)以及文檔編寫都是我一個人完成的掺涛,所以項目肯定不如一個團(tuán)隊一起寫那么完善,而且很多功能我想開發(fā)也是心有余而力不足疼进,所以肯定有很多可以改進(jìn)的地方薪缆。由于代碼全部公開,所以大家可以自行fork之后進(jìn)行修改和添加新功能伞广,也歡迎大家提PR使得這個軟件的功能更加完善拣帽,共同構(gòu)建一個美好的開源社區(qū)。

對于軟件中涉及到的算法細(xì)節(jié)嚼锄,大家可以看樓主的碩士畢業(yè)論文减拭,里面寫的很詳細(xì):https://github.com/NaiboWang/EasySpider/blob/master/Docs/面向WEB應(yīng)用的智能化服務(wù)封裝系統(tǒng)設(shè)計與實現(xiàn).pdf對于軟件開發(fā)使用到的具體技術(shù),如chrome擴(kuò)展開發(fā)区丑,websocket的使用拧粪,ElectronJS跨平臺框架等等,大家可以在下載代碼之后去研究下我的寫法沧侥,我相信我的代碼寫法絕不是最好的可霎,甚至當(dāng)時由于想趕緊畢業(yè)所以只是想寫一個能用的demo出來所以可以說有些粗糙,比如耦合性太強(qiáng)宴杀,不夠模塊化等等啥纸,因此可改進(jìn)空間還有很多,歡迎大家提出意見和建議婴氮。

對于初學(xué)CS的學(xué)弟學(xué)妹來說斯棒,這個項目也算是不錯的樣例盾致,因為從開發(fā)角度來說,這個項目包含了前端開發(fā)荣暮,后臺開發(fā)庭惜,數(shù)據(jù)庫操作,瀏覽器擴(kuò)展開發(fā)等模塊穗酥;從算法角度來說护赊,這個項目包含了如深度優(yōu)先,廣度優(yōu)先砾跃,數(shù)據(jù)結(jié)構(gòu)骏啰,圖,編譯原理抽高,遞歸等等算法技巧判耕。大家如果想學(xué)習(xí),也許可以從這個項目源碼里學(xué)到一些知識翘骂。

最后壁熄,真心希望軟件可以幫到大家!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末碳竟,一起剝皮案震驚了整個濱河市草丧,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌莹桅,老刑警劉巖昌执,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異诈泼,居然都是意外死亡仙蚜,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進(jìn)店門厂汗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人呜师,你說我怎么就攤上這事娶桦。” “怎么了汁汗?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵衷畦,是天一觀的道長。 經(jīng)常有香客問我知牌,道長祈争,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任角寸,我火速辦了婚禮菩混,結(jié)果婚禮上忿墅,老公的妹妹穿的比我還像新娘。我一直安慰自己沮峡,他們只是感情好疚脐,可當(dāng)我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著邢疙,像睡著了一般棍弄。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上疟游,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天呼畸,我揣著相機(jī)與錄音,去河邊找鬼颁虐。 笑死蛮原,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的聪廉。 我是一名探鬼主播瞬痘,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼板熊!你這毒婦竟也來了框全?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤干签,失蹤者是張志新(化名)和其女友劉穎津辩,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體容劳,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡喘沿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了竭贩。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蚜印。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖留量,靈堂內(nèi)的尸體忽然破棺而出窄赋,到底是詐尸還是另有隱情,我是刑警寧澤楼熄,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布忆绰,位于F島的核電站,受9級特大地震影響可岂,放射性物質(zhì)發(fā)生泄漏错敢。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一缕粹、第九天 我趴在偏房一處隱蔽的房頂上張望稚茅。 院中可真熱鬧纸淮,春花似錦、人聲如沸峰锁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽虹蒋。三九已至糜芳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間魄衅,已是汗流浹背峭竣。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留晃虫,地道東北人皆撩。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像哲银,于是被迫代替她去往敵國和親扛吞。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容