大學(xué)的時(shí)候一個(gè)人在宿舍沒(méi)有點(diǎn)計(jì)劃好的事情做就會(huì)很容易虛度吗垮,正好加了學(xué)校的互聯(lián)網(wǎng)社團(tuán)绸贡,社團(tuán)新手考核有要求爬蟲(chóng)盯蝴,做不出要被勸退毅哗,嚇得我趕緊跑去看爬蟲(chóng)。剛開(kāi)始看爬蟲(chóng)的時(shí)候捧挺,在網(wǎng)上找了很多資料虑绵,好大一部分教程是python2的,還有好大一部分可能是因?yàn)槲业闹巧滩粔虿辉趺纯吹亩隼印|搞西搞搞了好久翅睛,看了好多,終于算是有點(diǎn)看懂了黑竞,就來(lái)寫(xiě)篇文章捕发,算是對(duì)自己這段時(shí)間學(xué)習(xí)的總結(jié)吧。因?yàn)槭沁厡W(xué)邊寫(xiě)很魂,所以有些地方寫(xiě)的可能沒(méi)有那么有條理扎酷,見(jiàn)諒。
? 首先簡(jiǎn)單介紹一下什么是爬蟲(chóng)(不想看的可以直接跳過(guò)這一段)遏匆。這是百度百科的解釋:網(wǎng)絡(luò)爬蟲(chóng)(又被稱為網(wǎng)頁(yè)蜘蛛法挨,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間幅聘,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者)凡纳,是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本帝蒿。另外一些不常使用的名字還有螞蟻荐糜、自動(dòng)索引、模擬程序或者蠕蟲(chóng)葛超。
? 說(shuō)白了就是可以自動(dòng)幫你獲取網(wǎng)頁(yè)信息的程序暴氏,可以用爬蟲(chóng)爬文字,也可以用它實(shí)現(xiàn)登錄绣张,當(dāng)然了偏序,老司機(jī)最喜歡的就是用它爬島國(guó)小姐姐的照片和電影了。(相信我胖替,我肯定沒(méi)有這個(gè)想法)
? 我們?cè)賮?lái)說(shuō)說(shuō)為什么用Python3寫(xiě)爬蟲(chóng)研儒。相比于Java,C独令,C++之類的語(yǔ)言Python確實(shí)輕巧方便端朵,適合輕量級(jí)工作。而且某種意義上來(lái)說(shuō)確實(shí)功能強(qiáng)大燃箭。話不多說(shuō)見(jiàn)下圖
至于用3還是用2嘛冲呢,這確實(shí)是個(gè)很難回答的問(wèn)題,因?yàn)镻ython的2和3并并不兼容招狸,所以必須做個(gè)抉擇敬拓,當(dāng)然要是大佬的話兩個(gè)一起給學(xué)了也行邻薯。Python2現(xiàn)在還是有大量的人在使用,使用的人數(shù)還是大超Python3的乘凸,但3現(xiàn)在發(fā)展也是越來(lái)越好使用的人也一直在增加厕诡,當(dāng)然這個(gè)選擇也有個(gè)人原因,并且社團(tuán)要求是3营勤。這兒也有知乎上的討論:
應(yīng)該學(xué)習(xí)最新版本的 Python 3 還是舊版本的 Python 2灵嫌?
反正對(duì)于新舊技術(shù)的選擇總是個(gè)比較蛋疼的,自己抉擇就好葛作。
好了那么我們?cè)賮?lái)看看學(xué)習(xí)python前的準(zhǔn)備和資料:
? ? ? ? ? 1.當(dāng)然是Python基礎(chǔ)了寿羞,
用Python寫(xiě)爬蟲(chóng)怎么可以不會(huì)Python。個(gè)人覺(jué)得Python只要學(xué)了基礎(chǔ)就可以開(kāi)始寫(xiě)了赂蠢,遇見(jiàn)其他的可以現(xiàn)學(xué)現(xiàn)買绪穆。當(dāng)然了這只是個(gè)人的建議。這里有幾個(gè)個(gè)人覺(jué)得比較好的學(xué)習(xí)Python3的學(xué)習(xí)網(wǎng)址:
? ? ? ? ? 廖雪峰官方網(wǎng)址:
? ? ? ? ? ? ? ? 廖雪峰python3(廖老師講得挺好的虱岂,挺適合新手的霞幅,但說(shuō)實(shí)在的,有些例題和有部分內(nèi)容跳的挺快的量瓜,但總的來(lái)說(shuō)還是比較適合0基礎(chǔ)的新人的)
? ? ? ? ? ? ? ? 不過(guò)說(shuō)實(shí)在的python3的新手入門(mén)的書(shū)確實(shí)比較少,市面上的好多資料都是python2的資料途乃。像什么《笨辦法學(xué)python》之類的好像基本是講python2的绍傲。
但這里有一本不錯(cuò)的python3的書(shū)講的還挺詳細(xì)的,和廖雪峰老師講的可以互補(bǔ)吧耍共。書(shū)名叫做《python3基礎(chǔ)教程》有興趣的可以去看看烫饼。
? ? ? ? ? ? ? 2.可以去看知乎上的如何入門(mén)爬蟲(chóng)的討論? :如何入門(mén) Python 爬蟲(chóng)?
? ? ? ? ? ? ? 3.當(dāng)然這里還有python的官方原文件试读,有能力的可以看看:3.3.6Documentation
? ? ? ? ? ? ? 4.當(dāng)然還是要推薦一本爬蟲(chóng)書(shū)籍的杠纵,這本書(shū)籍確實(shí)不錯(cuò)《python網(wǎng)絡(luò)數(shù)據(jù)采集》
? ? ? ? ? ? ? ? ? ? 這本書(shū)是以python3寫(xiě)的可以看看。
? ? ? ? ? ? ? ? ? ? 5.需要學(xué)習(xí)一些擴(kuò)展庫(kù)
? 當(dāng)然了這里除了第一項(xiàng)是學(xué)習(xí)爬蟲(chóng)的硬性指標(biāo)外其他都是可以一邊學(xué)爬蟲(chóng)一邊看的钩骇。