第1天|10天搞定Python網(wǎng)絡(luò)爬蟲雄可,吃里爬外?

人力資源部漂亮的小MM缠犀,跑來問我:老陳数苫,數(shù)據(jù)分析和爬蟲究竟是關(guān)系呀?說實在的辨液,我真不想理她虐急,因為我一直認為這個跟她的工作關(guān)系不大,可一想到她負責(zé)我負責(zé)部門的招聘工作滔迈,我只好勉為其難地跟她說:數(shù)據(jù)分析止吁,吃里被辑,爬蟲,爬外敬惦,合在一起就是吃里爬外盼理。

大數(shù)據(jù)時代,要想進行數(shù)據(jù)分析俄删,首先要有數(shù)據(jù)來源榜揖,單靠公司那幾條毛毛雨(數(shù)據(jù)),分析個寂寞都不夠抗蠢,唯有通過學(xué)習(xí)爬蟲举哟,從外部(網(wǎng)站)爬取一些相關(guān)、有用的數(shù)據(jù)迅矛,才能讓老板進行商業(yè)決策時的有據(jù)可依妨猩,而你,亦是老板秽褒。

一提到老板壶硅,漂亮的小MM,興奮得不得了销斟,馬上大聲問:你們IT界庐椒,最帥的是不是就是那個搞搜索引擎的李老板?

我盡管有點不服氣,有點不開心蚂踊,但我能怎么得约谈,畢竟在網(wǎng)絡(luò)爬蟲方面,他(李老板)的技術(shù)比確實強犁钟。他懂得用爬蟲技術(shù)棱诱,每天在海量互聯(lián)網(wǎng)信息中進行爬取,爬取優(yōu)質(zhì)的信息并收錄在他設(shè)定的數(shù)據(jù)庫中涝动。當(dāng)用戶在搜索引擎中迈勋,輸入關(guān)鍵字時,引擎系統(tǒng)將對關(guān)鍵詞進行數(shù)據(jù)分析處理醋粟,從收錄的網(wǎng)頁中找出相關(guān)網(wǎng)頁靡菇,按照一定的排名規(guī)則排序并將結(jié)果展現(xiàn)給用戶。

一想到排名賺到的money米愿,李老板一分都不給我厦凤,我就跟人力MM說:好了,不跟你扯犢子了吗货,我要跟我的老鐵說網(wǎng)絡(luò)爬蟲的原理了泳唠,你個吃里爬外的家伙狈网,見你的老板去吧宙搬。

1. 爬蟲是什么

網(wǎng)絡(luò)爬蟲又稱網(wǎng)絡(luò)蜘蛛笨腥、網(wǎng)絡(luò)螞蟻、網(wǎng)絡(luò)機器等勇垛,它按照我們制定的規(guī)則脖母,在網(wǎng)絡(luò)上爬取數(shù)據(jù)。爬到的結(jié)果中會有HTML代碼闲孤、JSON數(shù)據(jù)谆级、圖片、音頻或視頻讼积。程序員根據(jù)實際要求肥照,對數(shù)據(jù)進行過濾,提取其中有用的勤众,進行存儲舆绎。

說白點,就是用Python編程語言模擬瀏覽器们颜,訪問指定網(wǎng)站吕朵,對其返回結(jié)果,按規(guī)則進行篩選并提取自己需要的數(shù)據(jù)窥突,存放起來使用努溃,以供使用。

看過我《第10天 | 12天搞定Python阻问,文件操作?》和《第11天 | 12天搞定Python梧税,數(shù)據(jù)庫操作》的老鐵,應(yīng)該知道称近,數(shù)據(jù)常存在文件或數(shù)據(jù)庫中贡蓖。

2. 爬取流程

用戶通過瀏覽器訪問網(wǎng)絡(luò)數(shù)據(jù)的方式:打開瀏覽器->輸入網(wǎng)址->瀏覽器提交請求->下載網(wǎng)頁代碼->解析成頁面煌茬。

爬蟲編程斥铺,指定網(wǎng)址,模擬瀏覽器發(fā)送請求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于文件或數(shù)據(jù)庫中坛善。

爬蟲編程晾蜘,推薦用Python,是因為Python爬蟲庫簡單易用眠屎,在Python中剔交,好多開發(fā)庫都可以滿足大多數(shù)功能。它可以:

(1) 用http庫向目標(biāo)站點發(fā)起請求改衩,即發(fā)送一個Request(包含請求頭和請求體等)岖常;

(2) 對服務(wù)器返回的Response,用內(nèi)置的庫(html葫督、json竭鞍、正則表達式)就進行解析

(3) 將所需數(shù)據(jù)存儲到文件或數(shù)據(jù)庫當(dāng)中板惑。

3. 爬點定位

在編寫爬蟲代碼的過程中,經(jīng)常需要指定爬取的節(jié)點或路徑偎快。如果我告訴你冯乘,Chrome瀏覽器,就可以快速獲取節(jié)點或路徑的話晒夹,你會不會馬上看一下電腦是否安裝了裆馒?

會的話,那就對了丐怯,不會的喷好,趕緊去安裝吧。

在頁面中读跷,按下鍵盤F2鍵绒窑,可顯示源代碼。鼠標(biāo)選中你要獲取的節(jié)點舔亭,右鍵【檢查】就可定位到代碼中些膨,右鍵代碼,選擇【Copy】-【Copy Selector 】或【Copy XPath】便可復(fù)制節(jié)點或路徑的內(nèi)容钦铺。

好了订雾,有關(guān)爬蟲原理的內(nèi)容,老陳講完了矛洞,如果覺得對你有所幫助洼哎,希望老鐵能轉(zhuǎn)發(fā)點贊,讓更多的人看到這篇文章沼本。你的轉(zhuǎn)發(fā)和點贊噩峦,就是對老陳繼續(xù)創(chuàng)作和分享最大的鼓勵。

一個當(dāng)了10年技術(shù)總監(jiān)的老家伙抽兆,分享多年的編程經(jīng)驗识补。想學(xué)編程的朋友,可關(guān)注今日頭條:老陳說編程辫红。我將分享Python凭涂,前端(小程序)和App方面的干貨。關(guān)注我贴妻,沒錯的切油。

#Python##網(wǎng)絡(luò)爬蟲##程序員##爬蟲#

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市名惩,隨后出現(xiàn)的幾起案子澎胡,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件攻谁,死亡現(xiàn)場離奇詭異稚伍,居然都是意外死亡,警方通過查閱死者的電腦和手機巢株,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進店門槐瑞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來熙涤,“玉大人阁苞,你說我怎么就攤上這事§舸欤” “怎么了那槽?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長等舔。 經(jīng)常有香客問我骚灸,道長,這世上最難降的妖魔是什么慌植? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任甚牲,我火速辦了婚禮,結(jié)果婚禮上蝶柿,老公的妹妹穿的比我還像新娘丈钙。我一直安慰自己,他們只是感情好交汤,可當(dāng)我...
    茶點故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布雏赦。 她就那樣靜靜地躺著,像睡著了一般芙扎。 火紅的嫁衣襯著肌膚如雪星岗。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天戒洼,我揣著相機與錄音俏橘,去河邊找鬼。 笑死圈浇,一個胖子當(dāng)著我的面吹牛敷矫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播汉额,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼曹仗,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了蠕搜?” 一聲冷哼從身側(cè)響起怎茫,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后轨蛤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蜜宪,經(jīng)...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年祥山,在試婚紗的時候發(fā)現(xiàn)自己被綠了圃验。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,643評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡缝呕,死狀恐怖澳窑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情供常,我是刑警寧澤摊聋,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站栈暇,受9級特大地震影響麻裁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜源祈,卻給世界環(huán)境...
    茶點故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一煎源、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧香缺,春花似錦手销、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至埂淮,卻和暖如春姑隅,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背倔撞。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工讲仰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人痪蝇。 一個月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓鄙陡,卻偏偏與公主長得像,于是被迫代替她去往敵國和親躏啰。 傳聞我的和親對象是個殘疾皇子趁矾,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,509評論 2 348