首先來談?wù)勆督小芭老x”?
你有沒有用過搶票軟件谊迄?每當(dāng)春運(yùn)或者節(jié)假日期間闷供,我們總能看到各種搶票軟件在微信群中瘋轉(zhuǎn)。大家求爺爺告奶奶一般统诺,希望你能幫忙點(diǎn)個(gè)加速,好能夠早一點(diǎn)買到歸家或旅行的車票疑俭。
但無論你如何努力粮呢,往往總是直到最后千鈞一發(fā)之刻,才能拿到前往遠(yuǎn)方的車票钞艇。
這個(gè)讓你可能又愛又恨的搶票軟件啄寡,它的技術(shù)原理就是爬蟲。
所謂爬蟲哩照,如果從技術(shù)原理上講挺物,它就是一個(gè)高效的下載工具,能夠批量將網(wǎng)頁下載到本地飘弧,留作備份识藤。如果結(jié)合一些其他工具和算法,就能夠?qū)崿F(xiàn)次伶,收集同一類型的網(wǎng)頁痴昧,重復(fù)執(zhí)行同一動(dòng)作等行為。
簡單講冠王,就是通過技術(shù)和算法模擬一個(gè)人在網(wǎng)絡(luò)上的行為赶撰,像人一樣點(diǎn)網(wǎng)頁,像人一樣下訂單,只不過豪娜,相比起真人餐胀,他的效率高的異常。
它的工作狀態(tài)有些像蟻群瘤载,每個(gè)螞蟻的工作任務(wù)都非常簡單否灾,但是,當(dāng)一大群螞蟻重復(fù)相同的工作的時(shí)候惕虑,就能產(chǎn)生超乎尋常的效果坟冲。
比如說,如果你需要把全網(wǎng)關(guān)于某個(gè)關(guān)鍵詞的網(wǎng)站全部收集匯總到一起(比如:三節(jié)課)溃蔫,這時(shí)健提,就是爬蟲挨個(gè)查找所有關(guān)于三節(jié)課的信息,呈現(xiàn)到你的面前伟叛。
再比如說私痹,當(dāng)你想要找到12306中,某天所有北京到上海的余票统刮,爬蟲就可以幫助你不停地刷新網(wǎng)頁紊遵,直到出現(xiàn)那張可以帶你出發(fā)的車票。
在互聯(lián)網(wǎng)世界侥蒙,所有收集信息的過程暗膜,都離不開爬蟲的參與”揆茫可以這樣說学搜,沒有爬蟲,就沒有互聯(lián)網(wǎng)论衍。
接著再聊聊“爬蟲”的善與惡
爬蟲也分善惡瑞佩。
爬蟲最為廣泛,也使人受益最大的應(yīng)用就是搜索引擎坯台。
現(xiàn)在炬丸,幾乎所有有一定體量的app,都會有一個(gè)搜索框蜒蕾,通過搜索框稠炬,你可以查找到各種你需要的信息和內(nèi)容,這是爬蟲對人最大的價(jià)值滥搭。同時(shí)酸纲,也是支撐起谷歌近萬億美元市值的工具之一。
但是瑟匆,并不會是所有的爬蟲都像谷歌這樣你好我好大家好闽坡,反而真的會像蟲子一樣惹人煩惱栽惶。
? ? ? ? ? ? ? ? ? ? ? ? ? 圖片來源網(wǎng)絡(luò)
上面這張圖,顯示了爬蟲流量的主要去向疾嗅,每個(gè)色塊背后外厂,都是一個(gè)真實(shí)而又強(qiáng)大的利益鏈條。這些流量的去向代承,就不再充滿善意汁蝶,更多情況下,是生長在灰色地帶论悴。
這些爬蟲掖棉,或是為了一己私利,或是出于某些商業(yè)利益膀估,對某一款app瘋狂的騷擾幔亥,甚至影響了正常業(yè)務(wù)發(fā)展。這些爬蟲察纯,就是惡意的爬蟲(雖然惡意帕棉,對于消費(fèi)者來說可能并不是壞事,這里的惡意主要是指對被爬網(wǎng)站的惡意)饼记。
接下來香伴,我們來展示一下那些惡意爬蟲應(yīng)用,以及這些應(yīng)用都是怎么賺錢的具则?
1)刷票軟件
12306常年飽受爬蟲軟件的騷擾即纲。
許多刷票軟件,通過加價(jià)博肋,或者要求分享轉(zhuǎn)發(fā)的方式崇裁,幫助你買票,進(jìn)而實(shí)現(xiàn)收入或者用戶的增長束昵。
這個(gè)看起來并不復(fù)雜的行為,其實(shí)帶給12306巨大的壓力葛峻。
你知道每年過年之前锹雏,12306 被點(diǎn)成什么樣了嗎?公開數(shù)據(jù)是這么說的——
“最高峰時(shí)1天內(nèi)頁面瀏覽量達(dá)813.4億次术奖,1小時(shí)最高點(diǎn)擊量59.3億次礁遵,平均每秒164.8萬次〔杉牵”
在每秒164.8萬次點(diǎn)擊背后佣耐,不僅是全國人民急切的回家之心,還有無數(shù)刷票軟件帶來的天量點(diǎn)擊唧龄。
你可能還記得兼砖,前兩年12306上線了奇葩的驗(yàn)證碼,需要我們在一堆圖片中,找到符合要求的一種讽挟。圖片清晰度感人懒叛,要求奇葩,時(shí)不時(shí)會鬧出各種各樣的笑話耽梅。還有許多人在網(wǎng)上吐槽12306是不是故意刁難我們薛窥?
為推廣傳統(tǒng)文化,12306不遺余力
說實(shí)話眼姐,這真不是12306故意刁難我們诅迷,實(shí)在是飽受爬蟲騷擾之后的無奈之舉。許多人利用爬蟲技術(shù)反復(fù)登錄刷新众旗,力求在新的余票出現(xiàn)之時(shí)罢杉,第一時(shí)間搶到票。
為了盡可能避免這種情況逝钥,盡可能讓真人買到票屑那,12306才不得不上線這些奇葩的驗(yàn)證碼。許多爬蟲只有最簡單的點(diǎn)擊和收集數(shù)據(jù)的能力艘款,并不能識別圖片持际,絕大多數(shù)爬蟲都會被攔截。
但是哗咆,還是會有少部分的高階玩家蜘欲,攻破這道防線。
有一種東西叫做“打碼平臺”晌柬,你可以了解一下姥份。
打碼平臺雇傭了很多叔叔阿姨,他們在電腦屏幕前不做別的事情年碘,專門幫人識別驗(yàn)證碼澈歉。
那邊搶票軟件遇到了驗(yàn)證碼,系統(tǒng)就會自動(dòng)把這些驗(yàn)證碼傳到叔叔阿姨面前屿衅,他們手工選好之后埃难,然后再把結(jié)果傳回去〉泳茫總共的過程用不了幾秒時(shí)間涡尘。
而且,這樣的打碼平臺還有記憶功能响迂。如果叔叔阿姨已經(jīng)標(biāo)記了某張圖考抄,那么下次這張圖片再出現(xiàn)的時(shí)候,系統(tǒng)就直接判斷蔗彤。
時(shí)間一長川梅,12306 系統(tǒng)里的圖片就被標(biāo)記完了疯兼,機(jī)器自己都能認(rèn)識,叔叔阿姨都可以坐在一邊斗地主了挑势。
即使如此镇防,還是做到了每秒164.8萬次點(diǎn)擊,如果沒有這層防火墻潮饱,數(shù)量更是難以想象来氧。
你可能會問,就算用了刷票軟件又如何香拉,搶到票不就好了啦扬?
且不說刷票軟件帶來的巨大的流量壓力,需要為此多付出的服務(wù)器成本凫碌。為了防范刷票扑毡,不得不將注冊和驗(yàn)證流程越搞越煩瑣,平添無數(shù)煩惱盛险。
而且瞄摊,你用搶票軟件買到了票,那么苦掘,不會使用搶票軟件的叔叔阿姨們又該怎么辦吶换帜?
所以,這事不是你方便了就好鹤啡。
2)僵尸粉大軍
在微博上有一類粉絲惯驼,叫做“僵尸粉”。
我們經(jīng)常能夠看到一些微博名稱中帶著一長串?dāng)?shù)字递瑰,沒有頭像祟牲,卻瘋狂的轉(zhuǎn)發(fā)一些熱門評論,或者瘋狂對著一個(gè)微博點(diǎn)贊轉(zhuǎn)發(fā)抖部,點(diǎn)開主頁卻一條微博都沒有说贝。這些沒有頭像,以數(shù)字命名的微博粉絲慎颗,就是僵尸粉狂丝。
它們按時(shí)上班,找到某個(gè)人的微博哗总,瘋狂的點(diǎn)贊留言轉(zhuǎn)發(fā)關(guān)注,造成一種火熱的幻覺倍试。
僵尸粉的興起讯屈,與爬蟲也離不開關(guān)系。
就像我們說的县习,爬蟲是模仿真人的行為涮母,但是谆趾,只能模仿最簡單的行為,比如說叛本,按照事先安排好的文案和進(jìn)行評論沪蓬,再比如說,點(diǎn)贊轉(zhuǎn)發(fā)加關(guān)注来候。所以跷叉,如果只看數(shù)據(jù),不仔細(xì)分辨营搅,往往能夠瞞天過海云挟。
許多僵尸粉每天日夜辛勞,刷贊刷評論刷關(guān)注转质,為微博的活躍數(shù)據(jù)添磚加瓦园欣,貢獻(xiàn)一份力量。
可是休蟹,微博不像是12306沸枯,可以靠買票賺錢,刷量又有什么用吶赂弓?
用處大了绑榴。
你是一個(gè)萌新用戶,用爬蟲偽造出10萬粉絲拣展,按時(shí)按點(diǎn)互動(dòng)點(diǎn)贊留言彭沼。
廣告主看到數(shù)據(jù)很開心,在你這里投放廣告备埃,提升注冊數(shù)姓惑。可是你這都是爬蟲的假賬號按脚,沒有真人該咋辦吶于毙?
沒事,你找不來人沒關(guān)系辅搬,有爬蟲啊唯沮。你有十萬個(gè)爬蟲賬號,可以勻出一萬來堪遂,點(diǎn)擊注冊賬戶介蛉,刷刷刷把數(shù)據(jù)刷上去,躺著就把錢賺了溶褪。币旧。
再不濟(jì),有一個(gè)看起來火熱的號猿妈,還可以乘著機(jī)會早日賣掉吹菱,這也換來一波不菲的收入巍虫。
最后,你還能靠買清粉工具再賺一波鳍刷。
別人只是一石二鳥占遥,你可能是一魚三吃,實(shí)在是佩服输瓜。
而且瓦胎,微博官方對這事其實(shí)心知肚明,只不過睜一只眼前痘,閉一只眼罷了凛捏,畢竟,有了僵尸粉芹缔,數(shù)據(jù)還好看很多坯癣,何樂而不為吶?
3)返利電商刷低價(jià)
不知道你還記不記得有一類網(wǎng)站叫“聚合電商”“返利平臺”等等等等最欠。
這些網(wǎng)站示罗,也是爬蟲工具的受益者,它的基本原理和搜索引擎類似芝硬。
搜索引擎是將網(wǎng)頁爬取過來蚜点,聚合在一起展示出來。
返利網(wǎng)站是將商品爬取出來拌阴, 聚合在一起展示出來绍绘,順道把不同網(wǎng)站的商品做一個(gè)比價(jià)。
當(dāng)然迟赃,無論是淘寶還是京東陪拘,對于這件事都是拒絕的,畢竟纤壁,誰也沒法保證自己的每件商品就是全網(wǎng)最低價(jià)左刽。如果都被返利網(wǎng)站展示出來,豈不就虧了酌媒。
不過欠痴,對于店鋪來說,可能就不一樣了秒咨,畢竟喇辽,多一個(gè)渠道就多一份銷售額,在哪賣不是賣啊雨席。
這類網(wǎng)站茵臭,原理和搜索引擎接近粟瞬,盈利模式也差不多霜幼。
一方面驰凛,他們經(jīng)常會設(shè)置競價(jià)排名吐句,通過花更多錢箫锤,獲得更好的廣告位盛卡,提升銷售額狐史。
如果覺得競價(jià)排名良心過意不去哲嘲,你還可以設(shè)置獨(dú)立廣告位罢低,點(diǎn)擊一次轉(zhuǎn)一次的錢查辩。
不過,最大頭的收入還是做中間商网持,店鋪每成交一單宜岛,店家適當(dāng)給平臺一些返利。
對于消費(fèi)者來說功舀,這可能不算什么壞事萍倡,不過,對于電商平臺來說辟汰,可能不算好事列敲,畢竟這些店鋪能來網(wǎng)上賣貨都是靠他們的努力,平白無故就被你抓取了帖汞,最后錢還讓你賺走了戴而,心情肯定不好。
4)社區(qū)批量抓取數(shù)據(jù)和內(nèi)容
再有一類翩蘸,就是馬蜂窩那一類的網(wǎng)站所意。
其實(shí),許多社區(qū)產(chǎn)品中的內(nèi)容催首,大多數(shù)都是爬蟲爬取而來扶踊,除了像馬蜂窩,許多問答翅帜、文庫或招聘網(wǎng)站都會通過爬蟲獲取內(nèi)容姻檀。
畢竟,好內(nèi)容自帶流量涝滴,當(dāng)你有了足夠多的優(yōu)質(zhì)內(nèi)容绣版,也就有了足夠大的流量,變現(xiàn)就很輕松了歼疮。
對此杂抽,被爬網(wǎng)站有時(shí)候也是睜一只眼,閉一只眼韩脏,管不管缩麸,全在于自己有沒有這項(xiàng)業(yè)務(wù)。
最典型的例子就是領(lǐng)英赡矢,領(lǐng)英在2017年曾經(jīng)將一家名為HiQ的數(shù)據(jù)分析企業(yè)告上法庭杭朱,原因是認(rèn)定這家企業(yè)抓取領(lǐng)英用戶的就職狀態(tài)信息阅仔,提供給另外兩家利用機(jī)器學(xué)習(xí)分析員工跳槽傾向和職業(yè)技能的企業(yè)。
結(jié)果卻是即使打著保護(hù)用戶隱私的旗號弧械,領(lǐng)英仍然敗訴并且被聯(lián)邦法庭要求開放數(shù)據(jù)接口八酒。
原因是HiQ已經(jīng)這樣爬取領(lǐng)英的數(shù)據(jù)長達(dá)五年,領(lǐng)英一直知情并且曾經(jīng)去參加過HiQ組織的論壇峰會刃唐。如今領(lǐng)英自己開展了和HiQ類似的業(yè)務(wù)羞迷,就要斷了HiQ的生路。
這和大多數(shù)網(wǎng)站對待爬蟲的態(tài)度都很接近画饥,當(dāng)你規(guī)模不大衔瓮,或者我還不準(zhǔn)備做你這塊的生意時(shí),可以縱容你爬取我的信息抖甘,一定程度上热鞍,這個(gè)爬取過程還能提高我的受益。
但是单山,一旦超出我的承受范圍碍现,就要采取必要手段反擊。
以上米奸,就是爬蟲常見的一些騷操作昼接,說實(shí)話,這也只是窺其一角悴晰,爬蟲在整個(gè)互聯(lián)網(wǎng)中的應(yīng)用慢睡,遠(yuǎn)超你的想象。
政務(wù)網(wǎng)站铡溪、搜索引擎漂辐、地圖、自媒體等等等等一系列火熱的應(yīng)用棕硫,背后都有爬蟲的身影髓涯,這也是為什么我們說,沒有爬蟲哈扮,就沒有互聯(lián)網(wǎng)纬纪。
最后再聊兩個(gè)常見的問題
1)這事違法嗎?
目前尚沒有任何法律明確規(guī)定滑肉,類似爬蟲這樣的行為違法包各。
即使是之前熱評的馬蜂窩,你可以說他侵權(quán)靶庙,但是问畅,如果他將自己定位為平臺的話,那些將其它網(wǎng)站內(nèi)容放在馬蜂窩的行為,其實(shí)也是用戶自發(fā)护姆,與平臺無關(guān)矾端。
畢竟,就像我們說的卵皂,爬蟲畢竟也只是模仿人的行為须床,難道,你要因?yàn)橐粋€(gè)人或一群人點(diǎn)擊次數(shù)過于密集而懲罰他嗎渐裂?
所以,爬蟲本身并不違法钠惩。但是柒凉,你如何使用爬蟲獲取的數(shù)據(jù)和信息,大多數(shù)情況都是有明確的規(guī)定的篓跛。
比如說膝捞,你將別人有明確版權(quán)的文章或者圖片爬取出來,作為商用愧沟,這無疑是侵權(quán)行為蔬咬,我當(dāng)然可以告你。
再比如說沐寺,你爬取一些個(gè)人隱私數(shù)據(jù)林艘,公開買賣,也是違法行為混坞,我也是可以處理的狐援。
2)我究竟應(yīng)該如何看待爬蟲?
對于個(gè)人而言究孕,爬蟲作為高效的信息和數(shù)據(jù)獲取工具啥酱,一定是互聯(lián)網(wǎng)人的必備技巧,他將大幅節(jié)省你的時(shí)間厨诸,極大程度提高你的工作效率镶殷。
舉個(gè)最簡單的例子,作為一個(gè)新媒體從業(yè)者微酬,我會把一些我喜歡的公眾號文章通過爬蟲爬取下來绘趋,進(jìn)行分析對比,這要比我一篇一篇的看效率高多了得封。
比如說競品分析埋心、行業(yè)研究、人群畫像等工作忙上,通過爬蟲拷呆,你可以只需要幾分鐘的時(shí)間,就能夠?qū)⒛骋活悢?shù)據(jù)全部爬取下來,然后有針對性的進(jìn)行數(shù)據(jù)分析茬斧,優(yōu)化你的行文腰懂。
對于公司來說,爬蟲的應(yīng)用空間就更為巨大了项秉。
這兩年火熱的今日頭條就是典型案例绣溜,不太嚴(yán)謹(jǐn)?shù)恼f,今日頭條核心就是做了三件事——
把網(wǎng)絡(luò)上所有的資訊文章娄蔼,以及用戶在社交網(wǎng)站上的數(shù)據(jù)爬取下來怖喻。
把這些數(shù)據(jù)進(jìn)行分類打標(biāo)簽,進(jìn)行一一對應(yīng)岁诉。
將擁有同類標(biāo)簽的文章和用戶進(jìn)行匹配锚沸。
通過高效的應(yīng)用搜索引擎和個(gè)性化推薦功能,將傳統(tǒng)的人找信息的分發(fā)模式涕癣,轉(zhuǎn)變?yōu)樾畔⒄胰说姆职l(fā)模式哗蜈,幫助其成為一家獨(dú)角獸。
你或許做不成下一個(gè)今日頭條坠韩,但是距潘,擁有更多的數(shù)據(jù)能夠幫助你做成的事情,超過你的想象只搁。
但是音比,技術(shù)雖然有價(jià)值,如何使用技術(shù)就成為新的問題须蜗。
馬蜂窩這次的事件發(fā)生硅确,給我們提了個(gè)醒,很多創(chuàng)業(yè)公司早期明肮,都難免會在灰色地帶做一些事情菱农。
畢竟當(dāng)初整個(gè)互聯(lián)網(wǎng)世界還是一片蠻荒,大家都在跑馬圈地柿估,你不干循未,就有別人干,生存第一秫舌,雖然原則上不能原諒的妖,但是情感上也能理解。
但是足陨,當(dāng)你已經(jīng)成為一家成熟的大公司時(shí)嫂粟,就必須承擔(dān)必要的責(zé)任和底線。
在很多時(shí)候墨缘,應(yīng)用爬蟲其實(shí)是一個(gè)零和游戲星虹,一方受益就代表著另一方受損零抬,會使用搶票軟件的人就會使不使用搶票軟件的人受損;使用僵尸粉刷量的人宽涌,搶奪的是那些辛辛苦苦做內(nèi)容的媒體人的空間平夜;返利平臺則是直接截了電商的胡。
很難說在這場競爭中究竟孰是孰非卸亮,孰優(yōu)孰劣忽妒。但是,一旦我們的競爭兼贸,并沒有讓大家變得更好段直,或者是以一方付出更高的代價(jià)來實(shí)現(xiàn)的,這件事真的還合理嗎溶诞?
對于在互聯(lián)網(wǎng)行業(yè)做產(chǎn)品還是做運(yùn)營的所有人來說坷牛,我們工作的最大意義,正是在于“我們在運(yùn)用著自己力所能及的一些方法和工具很澄,一點(diǎn)點(diǎn)在讓這個(gè)世界變得更加完整和美好”的可能性。
而爬蟲也應(yīng)該是在這個(gè)過程中可以運(yùn)用到一種工具和方法颜及,用這個(gè)能量巨大的工具甩苛,讓我們自己,也讓我們所處的環(huán)境變得更好俏站,不也更有意義嗎讯蒲?