Python爬蟲入門二之爬蟲基礎(chǔ)了解

1.什么是爬蟲

爬蟲，即網(wǎng)絡(luò)爬蟲食茎，大家可以理解為在網(wǎng)絡(luò)上爬行的一直蜘蛛蒂破，互聯(lián)網(wǎng)就比作一張大網(wǎng)，而爬蟲便是在這張網(wǎng)上爬來(lái)爬去的蜘蛛咯别渔，如果它遇到資源附迷，那么它就會(huì)抓取下來(lái)。想抓取什么哎媚？這個(gè)由你來(lái)控制它咯喇伯。

比如它在抓取一個(gè)網(wǎng)頁(yè)，在這個(gè)網(wǎng)中他發(fā)現(xiàn)了一條道路拨与，其實(shí)就是指向網(wǎng)頁(yè)的超鏈接稻据，那么它就可以爬到另一張網(wǎng)上來(lái)獲取數(shù)據(jù)。這樣买喧，整個(gè)連在一起的大網(wǎng)對(duì)這之蜘蛛來(lái)說觸手可及捻悯，分分鐘爬下來(lái)不是事兒。

2.瀏覽網(wǎng)頁(yè)的過程

在用戶瀏覽網(wǎng)頁(yè)的過程中淤毛，我們可能會(huì)看到許多好看的圖片今缚，比如http://image.baidu.com/，我們會(huì)看到幾張的圖片以及百度搜索框低淡，這個(gè)過程其實(shí)就是用戶輸入網(wǎng)址之后姓言，經(jīng)過DNS服務(wù)器，找到服務(wù)器主機(jī)蔗蹋，向服務(wù)器發(fā)出一個(gè)請(qǐng)求事期，服務(wù)器經(jīng)過解析之后，發(fā)送給用戶的瀏覽器 HTML纸颜、JS兽泣、CSS 等文件，瀏覽器解析出來(lái)胁孙，用戶便可以看到形形色色的圖片了唠倦。

因此称鳞，用戶看到的網(wǎng)頁(yè)實(shí)質(zhì)是由 HTML 代碼構(gòu)成的，爬蟲爬來(lái)的便是這些內(nèi)容稠鼻，通過分析和過濾這些 HTML 代碼冈止，實(shí)現(xiàn)對(duì)圖片、文字等資源的獲取候齿。

3.URL的含義

URL熙暴，即統(tǒng)一資源定位符，也就是我們說的網(wǎng)址慌盯，統(tǒng)一資源定位符是對(duì)可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡(jiǎn)潔的表示周霉，是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址⊙窃恚互聯(lián)網(wǎng)上的每個(gè)文件都有一個(gè)唯一的URL俱箱，它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。

URL的格式由三部分組成：

①第一部分是協(xié)議(或稱為服務(wù)方式)灭必。

②第二部分是存有該資源的主機(jī)IP地址(有時(shí)也包括端口號(hào))狞谱。

③第三部分是主機(jī)資源的具體地址，如目錄和文件名等禁漓。

爬蟲爬取數(shù)據(jù)時(shí)必須要有一個(gè)目標(biāo)的URL才可以獲取數(shù)據(jù)跟衅，因此，它是爬蟲獲取數(shù)據(jù)的基本依據(jù)播歼，準(zhǔn)確理解它的含義對(duì)爬蟲學(xué)習(xí)有很大幫助伶跷。

4. 環(huán)境的配置

學(xué)習(xí)Python，當(dāng)然少不了環(huán)境的配置荚恶，最初我用的是Notepad++撩穿，不過發(fā)現(xiàn)它的提示功能實(shí)在是太弱了，于是谒撼，在Windows下我用了PyCharm食寡，在Linux下我用了Eclipse for Python，另外還有幾款比較優(yōu)秀的IDE廓潜，大家可以參考這篇文章學(xué)習(xí)Python推薦的IDE抵皱。好的開發(fā)工具是前進(jìn)的推進(jìn)器，希望大家可以找到適合自己的IDE

下一節(jié)辩蛋，我們就正式步入 Python 爬蟲學(xué)習(xí)的殿堂了呻畸，小伙伴準(zhǔn)備好了嘛？

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末悼院，一起剝皮案震驚了整個(gè)濱河市伤为，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖绞愚，帶你破解...
沈念sama閱讀 218,204評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件叙甸，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡位衩，警方通過查閱死者的電腦和手機(jī)裆蒸，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)糖驴，“玉大人僚祷，你說我怎么就攤上這事≈疲” “怎么了辙谜？”我有些...
開封第一講書人閱讀 164,548評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)跷睦。經(jīng)常有香客問我筷弦，道長(zhǎng)肋演，這世上最難降的妖魔是什么抑诸？我笑而不...
開封第一講書人閱讀 58,657評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮爹殊，結(jié)果婚禮上蜕乡，老公的妹妹穿的比我還像新娘。我一直安慰自己梗夸，他們只是感情好层玲，可當(dāng)我...
茶點(diǎn)故事閱讀 67,689評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著反症，像睡著了一般辛块。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上铅碍，一...
開封第一講書人閱讀 51,554評(píng)論 1贊 305
城市分裂傳說
那天润绵，我揣著相機(jī)與錄音，去河邊找鬼胞谈。笑死尘盼，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的烦绳。我是一名探鬼主播卿捎，決...
沈念sama閱讀 40,302評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼径密！你這毒婦竟也來(lái)了午阵？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,216評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤享扔，失蹤者是張志新（化名）和其女友劉穎底桂，沒想到半個(gè)月后括细，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,661評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡戚啥，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,851評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年奋单，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片猫十。...
茶點(diǎn)故事閱讀 39,977評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡览濒，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出拖云，到底是詐尸還是另有隱情贷笛，我是刑警寧澤，帶...
沈念sama閱讀 35,697評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布宙项，位于F島的核電站乏苦，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏尤筐。R本人自食惡果不足惜汇荐，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,306評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望盆繁。院中可真熱鬧掀淘，春花似錦、人聲如沸油昂。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)冕碟。三九已至拦惋，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間安寺，已是汗流浹背厕妖。一陣腳步聲響...
開封第一講書人閱讀 33,019評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留我衬，地道東北人叹放。一個(gè)月前我還...
沈念sama閱讀 48,138評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像挠羔，于是被迫代替她去往敵國(guó)和親井仰。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,927評(píng)論 2贊 355

Python爬蟲入門二之爬蟲基礎(chǔ)了解

推薦閱讀更多精彩內(nèi)容