1.
必須能采集任何網(wǎng)站何址,如果弄了半天你想采集的網(wǎng)站不支持那就悲劇了吨灭,發(fā)源地是市面上采集網(wǎng)站覆蓋最廣的工具,支持任何網(wǎng)站的采集痴突,而很多其他采集器只能覆蓋大概60%的網(wǎng)站,大多數(shù)采集器對于需要登錄狼荞,翻頁辽装,瀑布流、Ajax腳本異步加載數(shù)據(jù)等不能采集相味。
2.
還需要操作簡單拾积,發(fā)源地是國內(nèi)唯一一家支持一鍵智能采集的爬蟲工具,獨創(chuàng)的智能模式丰涉,只需要用戶輸入要采集的網(wǎng)址(包含要采集的數(shù)據(jù)列表)拓巧,點擊一個智能采集按鈕,數(shù)據(jù)就全自動的采集下來了一死,就像百度一樣肛度,看似一個簡單的搜索框,其實背后的技術(shù)很復(fù)雜投慈,當(dāng)然對用戶來講承耿,簡單好用才重要,背后復(fù)雜高深的技術(shù)并不重要伪煤,所有優(yōu)秀的產(chǎn)品一般都符合這個特征加袋,就像蘋果手機,正面只有一個按鈕抱既,但是背后卻影藏了指紋解鎖等技術(shù)职烧。除了智能模式,發(fā)源地還有自定義模式蝙砌,通過點擊鼠標選擇要采集的數(shù)據(jù)阳堕,發(fā)源地會自動生成可視化的采集流程度,非常容易理解和使用择克。
3.
學(xué)習(xí)上手容易恬总,如果一個工具很牛逼,但是你不會用也是白扯肚邢,發(fā)源地不需要你學(xué)習(xí)任何編程知識壹堰,也無需你懂網(wǎng)頁通信原理拭卿,HTML,Java等技術(shù)背景贱纠,對于文科背景或者沒有采集經(jīng)驗的小白是最佳選擇峻厚,對比其他采集器,大多數(shù)需要你懂得技術(shù)背景谆焊,比如HTML惠桃,Java腳本分析,網(wǎng)絡(luò)抓包辖试,正則表達式匹配等辜王,有些采集器還必須要寫代碼才能用。
4.
可以應(yīng)對常見防采集措施罐孝,可能你第一天接觸采集的時候不需要了解防采集是什么呐馆,但是當(dāng)你采集數(shù)據(jù)一段時間之后,相信你就會對此印象深刻莲兢,簡單來講汹来,網(wǎng)站為了防止自己的數(shù)據(jù)被機器程序大規(guī)模采集,而采取了一系列技術(shù)手段來限制采集改艇,這就是防采集收班,常見的防采集手段有登錄、封IP谒兄,驗證碼闺阱、Ajax異步加載,瀑布流等舵变,這些方法都非常有效,一般采集工具碰到這些的時候大多都歇菜了瘦穆,如果你是一個自己寫爬蟲打碼的工程師纪隙,相信你對此深有體會,發(fā)源地致力于打造能突破一切防采集手段的工具扛或,以上這些措施發(fā)源地都可以搞定绵咱,當(dāng)然也不止這些,發(fā)源地甚至能像人瀏覽網(wǎng)頁時一樣熙兔,如果網(wǎng)頁格式有變化悲伶,采用多種模板,或者彈出一個廣告住涉、登錄麸锉、錯誤、驗證碼等頁面舆声,發(fā)源地也能根據(jù)不同情況采用不同應(yīng)對措施花沉,包括自動識別和輸入驗證碼等柳爽,這其中最難搞的一個就是IP限制,IP限制常用的解決方法有代理IP碱屁,VPN等磷脯,這些都要求你有大量的IP資源,然而IP資源是需要成本的娩脾,一個IP一個月的成本至少在50元以上赵誓,碰到主流的網(wǎng)站比如大眾點評,阿里巴巴柿赊、天貓這些俩功,如果要大規(guī)模采集,必須有成千上萬的IP才行闹瞧,發(fā)源地的云采集集群IP不是固定的绑雄,而是像個水池一樣,不斷有新的IP加入奥邮,用過的IP退出万牺,這樣就有幾十萬上百萬的IP可以使用,同時洽腺,一個采集任務(wù)還會被隨機分配到很多臺不同IP的云采集服務(wù)器上去脚粟,速度快效率高、還防采集蘸朋。
5.其他核无,當(dāng)然每個人采集需求都不一樣,你可能還很看重其他的一些功能特點藕坯,比如是否有大量的學(xué)習(xí)教程資源团南、配置好的采集規(guī)則模板、活躍的交流社區(qū)炼彪、完善的客服支持吐根、以及實現(xiàn)全自動采集同步數(shù)據(jù)的API接口等等,不用說辐马、在這些方面發(fā)源地都為大家考慮到了拷橘,我就不一一贅述。
6.
當(dāng)采集量很大喜爷,數(shù)據(jù)更新要求高的時候冗疮,必須能支持大規(guī)模采集,試想一下檩帐,如果你需要百度术幔、58同城、微信湃密、淘寶特愿、京東仲墨、大眾點評等平臺時,上面的數(shù)據(jù)動輒幾千萬揍障,每天更新幾百萬目养,如果你用一臺電腦采集,這將是Mission
impossible(碟中諜:不可能完成的任務(wù))毒嫡,然而大多數(shù)的采集工具都是單機版工具癌蚁,顯然不行,發(fā)源地在2014年第一個版本上線的時候兜畸,就率先在提出了“云采集”的概念努释,發(fā)源地自建了一個由5000多臺云服務(wù)器組成的龐大云采集集群,很多人可能沒概念咬摇,5000臺相當(dāng)于早期雅虎搜索引擎的規(guī)模伐蒂,這些服務(wù)器24*7的在為發(fā)源地用戶提供數(shù)據(jù)采集服務(wù),單個用戶在發(fā)源地的采集量可以達到每天過千萬條數(shù)據(jù)肛鹏,在大數(shù)據(jù)的背景下逸邦,發(fā)源地是業(yè)內(nèi)唯一具備此能力的平臺。
7.
免費!免費!免費!最重要的事情說三遍在扰,發(fā)源地產(chǎn)品的設(shè)計有別于傳統(tǒng)的采集工具或其他軟件缕减,傳統(tǒng)的工具軟件一般都是按照功能收費,個別有免費版的也是把核心功能都給閹割點了(話說不閹割咋收費呢芒珠,
)桥狡,發(fā)源地完全不同,免費版本具備所有功能皱卓,這點也是很多其他采集器沒有的裹芝,到現(xiàn)在還有一些采集工具使用加密狗等方式來保護被閹割的功能,作為用戶來講我也是很無語娜汁,對于一般的需求而言局雄,免費版本就滿足所有需求了,當(dāng)然存炮,發(fā)源地是個成功的商業(yè)產(chǎn)品,也設(shè)置了一些增值服務(wù)蜈漓,如私有云等等穆桂,來滿足高端付費企業(yè)用戶的需要,用戶都可以根據(jù)需要選擇融虽。