??? 后羿采集器——最良心的爬蟲軟件

image

2020 年如果讓我推薦一款大眾向的數(shù)據(jù)采集軟件相味,那一定是后裔采集器了芭届。和我之前推薦的 web scraper 相比颇玷,如果說 web scraper 是小而精的瑞士軍刀,那后裔采集器就是大而全的重型武器坡椒,基本上可以解決所有的數(shù)據(jù)爬取問題扰路。

下面我們就來聊聊,這款軟件的優(yōu)秀之處倔叼。

一幼衰、產(chǎn)品特點(diǎn)

1.跨平臺

后羿采集器是一款桌面應(yīng)用軟件,支持三大操作系統(tǒng):Linux缀雳、Windows 和 Mac渡嚣,可以直接在官網(wǎng)上免費(fèi)下載

image

2.功能強(qiáng)大

后羿采集器把采集工作分為兩種類型:智能模式流程圖模式肥印。

image

智能模式就是加載網(wǎng)頁后识椰,軟件自動分析網(wǎng)頁結(jié)構(gòu),智能識別網(wǎng)頁內(nèi)容深碱,簡化操作流程腹鹉。這種模式比較適合簡單的網(wǎng)頁,經(jīng)過我的測試敷硅,識別準(zhǔn)確率還是挺高的功咒。

流程圖模式的本質(zhì)就是圖形化編程。我們可以利用后裔采集器提供的各種控件绞蹦,模擬編程語言中的各種條件控制語句力奋,從而模擬真人瀏覽網(wǎng)頁的各種行為爬取數(shù)據(jù)。

3.導(dǎo)出無限制

這個可以說是后羿采集器最良心的功能了幽七。

市面上有很多的數(shù)據(jù)采集軟件景殷,出于商業(yè)化的目的,多多少少會對數(shù)據(jù)導(dǎo)出進(jìn)行限制。不清楚套路的人經(jīng)常用相關(guān)軟件辛辛苦苦采集了一堆數(shù)據(jù)猿挚,結(jié)果發(fā)現(xiàn)導(dǎo)出數(shù)據(jù)需要花錢咐旧。

后羿采集器就沒有這個問題,它的付費(fèi)點(diǎn)主要是體現(xiàn)在 IP 池和采集加速等高級功能上绩蜻,不但導(dǎo)出數(shù)據(jù)不花錢铣墨,還支持 Excel、CSV办绝、TXT伊约、HTML 多種導(dǎo)出格式,并且支持直接導(dǎo)出到數(shù)據(jù)庫八秃,對于普通的用戶來說完全夠用了。

image

4.教程詳細(xì)

我在本文動筆之前曾經(jīng)想過先寫幾篇后羿采集器的使用教程肉盹,但是看了他們的官網(wǎng)教程后就知道沒這個必要了昔驱,因?yàn)閷懙膶?shí)在是太詳細(xì)了。

后羿采集器的官網(wǎng)提供了兩種教程上忍,一種是視頻教程骤肛,每個視頻五分鐘左右;一種是圖文教程窍蓝,手把手教學(xué)腋颠。看完這兩類教程后還可以看看他們的文檔中心吓笙,寫的也非常詳細(xì)淑玫,基本覆蓋了該軟件的各個功能點(diǎn)。

image

二面睛、基礎(chǔ)功能

1.數(shù)據(jù)抓取

基本的數(shù)據(jù)抓取非常簡單:我們只要點(diǎn)擊「添加字段」那個按鈕絮蒿,就會出現(xiàn)一個選擇魔棒,然后點(diǎn)選要抓取的數(shù)據(jù)叁鉴,就能采集數(shù)據(jù)了:

image

2.翻頁功能

我在介紹 web scraper 時(shí)曾把網(wǎng)頁翻頁分為 3 大類:滾動加載土涝、分頁器加載點(diǎn)擊下一頁加載

image

對于這三種基礎(chǔ)翻頁類型幌墓,后羿采集器也是完全支持的但壮。

不像 web scraper 的分頁功能散落在各種選擇器上,后羿采集器的分頁配置集中在一個地方上常侣,只要通過下拉選擇蜡饵,就可以輕松配置分頁模式。相關(guān)的配置教程可見官網(wǎng)教程:如何設(shè)置分頁胳施。

image

3.復(fù)雜表單

對于一些多項(xiàng)聯(lián)動篩選的網(wǎng)頁验残,后羿采集器也能很好的處理。我們可以利用后裔采集器里的流程圖模式,去自定義一些交互規(guī)則您没。

例如下圖鸟召,我就利用了流程圖模式里的點(diǎn)擊組件模擬點(diǎn)擊篩選按鈕,非常方便氨鹏。

image

三欧募、進(jìn)階使用

1.數(shù)據(jù)清洗

我在介紹 web scraper 時(shí),說 web scraper 只提供了基礎(chǔ)的正則匹配功能仆抵,可以在數(shù)據(jù)抓取時(shí)對數(shù)據(jù)進(jìn)行初步的清洗跟继。

相比之下,后羿采集器提供了更多的功能:強(qiáng)大的過濾配置镣丑,完整的正則功能和全面的文字處理配置舔糖。當(dāng)然,功能強(qiáng)大的同時(shí)也帶來了復(fù)雜度的提升莺匠,需要有更多的耐心去學(xué)習(xí)使用金吗。

下面是官網(wǎng)上和數(shù)據(jù)清洗有關(guān)的教程,大家可以參考學(xué)習(xí):

  • 如何設(shè)置數(shù)據(jù)篩選講解了基礎(chǔ)的數(shù)據(jù)清洗功能趣竣,可以避免采集過程中的無效采集(例如采集某個微博博主的數(shù)據(jù)時(shí)摇庙,可以過濾第一條置頂微博的數(shù)據(jù),只采集正常時(shí)間流的微博)
  • 如何設(shè)置采集范圍講解了采集過程中過濾不需要的采集項(xiàng)遥缕,可以方便的自定義采集范圍(例如采集豆瓣電影 TOP 250 時(shí)卫袒,只采集前 100 名的數(shù)據(jù),而不是全量的 250 條數(shù)據(jù))
  • 如何對采集字段進(jìn)行配置講解了如何定制采集的最小字段单匣,并且支持疊加處理夕凝,可以對一個字段使用多種匹配規(guī)則。(例如只想采集「1024 個贊」這條文本里的數(shù)字户秤,就可以設(shè)置相應(yīng)的規(guī)則過濾掉漢字)

2.流程圖模式

本文前面也介紹過了迹冤,流程圖模式的本質(zhì)就是圖形化編程。我們可以利用后裔采集器提供的各種控件虎忌,模擬編程語言中的各種條件控制語句泡徙,從而模擬真人瀏覽網(wǎng)頁的各種行為爬取數(shù)據(jù)。

比如說下圖這個流程圖膜蠢,就是模擬真人瀏覽微博時(shí)的行為去抓取相關(guān)數(shù)據(jù)堪藐。

image

經(jīng)過我個人的幾次測試,我認(rèn)為流程圖模式有一定的學(xué)習(xí)門檻挑围,但是和從頭學(xué)習(xí) python 爬蟲比起來礁竞,學(xué)習(xí)曲線還是緩和了不少。如果對流程圖模式很感興趣杉辙,可以去官網(wǎng)上學(xué)習(xí)模捂,寫的非常詳細(xì)。

3.XPath/CSS/Regex

無論是什么爬蟲軟件,他們都是基于一定的規(guī)則去抓取數(shù)據(jù)的狂男。XPath/CSS/Regex 就是幾個常見的匹配規(guī)則综看。后羿采集器支持自定義這幾種選擇器,可以更靈活的選擇要抓取的數(shù)據(jù)岖食。

比如說某個網(wǎng)頁里存在數(shù)據(jù) A红碑,但只有鼠標(biāo)移到對應(yīng)的文字上才會以彈窗的形式顯示出來,這時(shí)候我們就可以自己寫一個對應(yīng)的選擇器去篩選數(shù)據(jù)泡垃。

image

XPath

XPath 是一種在爬蟲中運(yùn)用非常廣泛的數(shù)據(jù)查詢語言析珊。我們可以通過 XPath 教程去學(xué)習(xí)這個語言的運(yùn)用。

CSS

這里的 CSS 特指的 CSS 選擇器蔑穴,我之前介紹 web scraper 的高級技巧時(shí)忠寻,講解過 CSS 選擇器的使用場景和注意事項(xiàng)。感興趣的人可以看我寫的 CSS 選擇器教程存和。

Regex

Regex 就是正則表達(dá)式礼预。我們也可以通過正則表達(dá)式去選擇數(shù)據(jù)瞳腌。我也寫過一些正則表達(dá)式的教程怖糊。但是個人認(rèn)為在字段選擇器這個場景下喘漏,正則表達(dá)式?jīng)]有 XPath 和 CSS 選擇器好用惋鸥。

4.定時(shí)抓取/IP 池/打碼功能

這幾個都是后羿采集器的付費(fèi)功能健田,我沒有開會員眷唉,所以也不知道使用體驗(yàn)怎么樣隘庄。在此我做個小小的科普九串,給大家解釋一下這幾個名詞是什么意思绞佩。

定時(shí)抓取

定時(shí)抓取非常好理解,就是到了某個固定的時(shí)間爬蟲軟件就會自動抓取數(shù)據(jù)猪钮。市面上有一些比價(jià)軟件品山,背后就是運(yùn)行著非常多的定時(shí)爬蟲,每隔幾分鐘爬一下價(jià)格信息烤低,以達(dá)到價(jià)格監(jiān)控的目的肘交。

IP 池

互聯(lián)網(wǎng)上 90% 的流量都是爬蟲貢獻(xiàn)的,為了降低服務(wù)器的壓力扑馁,互聯(lián)網(wǎng)公司會有一些風(fēng)控策略涯呻,里面就有一種是限制 IP 流量。比如說互聯(lián)網(wǎng)公司后臺檢測到某個 IP 有大量的數(shù)據(jù)請求腻要,超過了正常范圍复罐,就會暫時(shí)的封鎖這個 IP,不返回相關(guān)數(shù)據(jù)雄家。這時(shí)候爬蟲軟件就會自己維護(hù)一個 IP 池效诅,用不同的 IP 發(fā)送請求,降低 IP 封鎖的概率。

打碼功能

這個功能就是內(nèi)置了驗(yàn)證碼識別器乱投,可以實(shí)現(xiàn)機(jī)器打碼 or 手動打碼咽笼,也是繞過網(wǎng)站風(fēng)控的一種方法。

四篡腌、總結(jié)

個人認(rèn)為后羿采集器是一款非常優(yōu)秀的數(shù)據(jù)采集軟件褐荷。它提供的免費(fèi)功能可以解決絕大部分編程小白的數(shù)據(jù)抓取需求。

如果有一些編程基礎(chǔ)嘹悼,可以明顯的看出一些功能是對編程語言邏輯的封裝叛甫,比如說流程圖模式是對流程控制的封裝,數(shù)據(jù)清洗功能是對字符串處理函數(shù)的封裝杨伙。這些高階功能擴(kuò)展了后羿采集器的能力其监,也增大了學(xué)習(xí)難度。

我個人看來限匣,如果是輕量的數(shù)據(jù)抓取需求抖苦,更傾向于使用 web scraper;需求比較復(fù)雜米死,后羿采集器是個不錯的選擇锌历;如果涉及到定時(shí)抓取等高級需求,自己寫爬蟲代碼反而更加可控峦筒。

總而言之究西,后羿采集器是一款優(yōu)秀的數(shù)據(jù)采集軟件,非常推薦大家學(xué)習(xí)和使用物喷。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末卤材,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子峦失,更是在濱河造成了極大的恐慌扇丛,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件尉辑,死亡現(xiàn)場離奇詭異帆精,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)隧魄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門卓练,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人堤器,你說我怎么就攤上這事昆庇。” “怎么了闸溃?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵整吆,是天一觀的道長拱撵。 經(jīng)常有香客問我,道長表蝙,這世上最難降的妖魔是什么拴测? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮府蛇,結(jié)果婚禮上集索,老公的妹妹穿的比我還像新娘。我一直安慰自己汇跨,他們只是感情好务荆,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著穷遂,像睡著了一般函匕。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蚪黑,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天盅惜,我揣著相機(jī)與錄音,去河邊找鬼忌穿。 笑死抒寂,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的掠剑。 我是一名探鬼主播屈芜,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼澡腾!你這毒婦竟也來了沸伏?” 一聲冷哼從身側(cè)響起糕珊,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤动分,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后红选,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體澜公,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年喇肋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了坟乾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡蝶防,死狀恐怖甚侣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情间学,我是刑警寧澤殷费,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布印荔,位于F島的核電站,受9級特大地震影響详羡,放射性物質(zhì)發(fā)生泄漏仍律。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一实柠、第九天 我趴在偏房一處隱蔽的房頂上張望水泉。 院中可真熱鬧,春花似錦窒盐、人聲如沸草则。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽畔师。三九已至,卻和暖如春牧牢,著一層夾襖步出監(jiān)牢的瞬間看锉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工塔鳍, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留伯铣,地道東北人。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓轮纫,卻偏偏與公主長得像腔寡,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子掌唾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容