簡書系統(tǒng)最近又鬧別扭了,聽說無法上傳或不顯示圖片呢撞;還有失常鎖文贸街。
所幸庵寞,又聽說在技術(shù)員一番溫柔安撫之后,情緒已逐漸穩(wěn)定下來了薛匪。
我第一反應(yīng)是點開美文網(wǎng)搜索一番,結(jié)果發(fā)現(xiàn)最近的文章都被爬取了脓鹃,唯一不同的是不顯示圖片逸尖,點開頁面也只有標(biāo)題而已:
這是巧合嗎?于是我再嘗試搜索小木的主頁:
難道簡書與爬蟲網(wǎng)站是命運共同體瘸右?
這讓我想起一件事娇跟,據(jù)說爬蟲把簡書的文章與圖片都爬取后,還是直接用簡書的圖床鏈接太颤。
試想苞俘,當(dāng)他們站流量大了之后,圖片卻還在簡書這里龄章,而圖片存儲和 CDN 都得花錢……這又有多冤枉俺砸ァ!
至于美文網(wǎng)圖片不顯示是否與此次系統(tǒng)鬧別扭有關(guān)做裙,我不懂這方面的技術(shù)岗憋,所以只能猜測。
說到簡書系統(tǒng)一直鬧別扭锚贱,我就更不負(fù)責(zé)任猜想是讓蟲子搞得抓狂了仔戈。
或許有人會說干嘛不把蟲子拍死?
說起來拧廊,網(wǎng)絡(luò)爬蟲就與大自然的蟲子一樣监徘。
自然界的蟲子有分益蟲與害蟲,而網(wǎng)絡(luò)爬蟲也分合法與非法吧碾;所以不能一拍子把蟲子都滅了凰盔。
爬蟲既然不可滅,于是就有了與爬蟲之間的一份協(xié)議——robots.txt( 爬蟲協(xié)議 )滤港。
協(xié)議列明了爬蟲訪問權(quán)限與可抓取的內(nèi)容廊蜒。
說白了,就比如簡書是一間大酒店溅漾,不想被打擾的就在房門掛上“請勿打擾”的牌子山叮;沒掛牌子的即默許被打擾。
這份協(xié)議是君子協(xié)議添履,君子遵守而小人無視屁倔。
但是,在侵權(quán)的訴訟上暮胧,絕對能以此協(xié)議為依據(jù)提出起訴——雖然沒有制約性锐借,但是卻有法律效力……貌似有些矛盾问麸?
那么,簡書可有robots.txt钞翔?
當(dāng)然有严卖,協(xié)議內(nèi)容也不是什么秘密,只要上網(wǎng)輸入關(guān)鍵詞就能輕易獲得布轿。
我不是技術(shù)員哮笆,看不懂這份協(xié)議也很正常,不過聽小明說這份協(xié)議內(nèi)容并沒有設(shè)限汰扭,簡單來說就是沒在我們房門囗掛上“請勿打擾”的牌子稠肘。
說得再直白一點就是沒有限制爬蟲對簡書文章的抓取萝毛!
不阻止即是默許项阴?
因為沒說不許爬取,所以爬蟲爬得理直氣壯笆包?
明知一早已讓爬蟲盯上环揽,簡書官方為什么不規(guī)范爬蟲的訪問權(quán)限?
為什么不禁止爬蟲肆意採集色查?
為什么無視用戶的訴求薯演?
為什么不在乎優(yōu)秀作者因此失望憤而放棄簡書?
我還得再三強調(diào)秧了,我不了解這方面的專業(yè)跨扮,所以希望有人給出答案……
在不斷搜索的過程,更駭人聽聞的竟然是有人在簡書上發(fā)帖公開教導(dǎo)如何利用爬蟲技術(shù)爬取簡書用戶的文章验毡!
python爬蟲系列之?dāng)?shù)據(jù)存儲實戰(zhàn):爬取簡書用戶文章列表并保存
除此,以“如何爬取簡書文章”為關(guān)鍵詞搜索又會出現(xiàn)怎樣的訊息晶通?
搜索至此璃氢,眼前一片黑暗,簡書是砧板上任人魚肉的平臺狮辽?
這是諷刺一也?還是對簡書官方的警示?
簡書官方還能無視嗎喉脖?難道不該積極正視并想設(shè)法去亡羊補牢嗎椰苟?
我不明白,對此树叽,你們又是怎么看的舆蝴?
慢!
如果把關(guān)鍵詞“簡書”換成某乎某條又如何?
我嘗試了……你就把搜索所得的簡書換成某乎某條就是答案了洁仗。
最后层皱,我只能說反爬蟲的過程就八個字:
? ? ? ? 道高一尺魔高一丈
這是一場艱苦的長期維權(quán)之戰(zhàn),我們希望簡書未來更好赠潦,也明白現(xiàn)實與理想的差距——可我們更希望看見的是上下一心的一致叫胖。
最怕的是底下在反抗,上面的深知反抗的難處而消極化作享受她奥。
無論如何艱難臭家,我們都不該放棄!
不是嗎方淤?
最后想說的是,我理解與表達(dá)能力有限蹄殃,所說也就想著能起到拋磚引玉的作用携茂。
同時,我更相信萬眾一心的力量诅岩,你呢讳苦?