1宵蛀,爬蟲入門之爬蟲基礎了解


1.什么是爬蟲

爬蟲昆著,即網絡爬蟲,大家可以理解為在網絡上爬行的一只蜘蛛术陶,互聯(lián)網就比作一張大網凑懂,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源梧宫,那么它就會抓取下來接谨。想抓取什么?這個由你來控制它咯塘匣。
比如它在抓取一個網頁脓豪,在這個網中他發(fā)現(xiàn)了一條道路,其實就是指向網頁的超鏈接忌卤,那么它就可以爬到另一張網上來獲取數據扫夜。這樣,整個連在一起的大網對這之蜘蛛來說觸手可及驰徊,分分鐘爬下來不是事兒笤闯。

2.瀏覽網頁的過程

在用戶瀏覽網頁的過程中,我們可能會看到許多好看的圖片辣垒,比如 http://novel.tanzhouvip.com/ 望侈,我們會看到幾張的圖片以及百度搜索框印蔬,這個過程其實就是用戶輸入網址之后勋桶,經過DNS服務器,找到服務器主機侥猬,向服務器發(fā)出一個請求例驹,服務器經過解析之后,發(fā)送給用戶的瀏覽器 HTML退唠、JS鹃锈、CSS 等文件,瀏覽器解析出來瞧预,用戶便可以看到形形色色的圖片了屎债。
因此,用戶看到的網頁實質是由 HTML 代碼構成的垢油,爬蟲爬來的便是這些內容盆驹,通過分析和過濾這些 HTML 代碼,實現(xiàn)對圖片滩愁、文字等資源的獲取躯喇。

3.URL的含義

URL,即統(tǒng)一資源定位符硝枉,也就是我們說的網址廉丽,統(tǒng)一資源定位符是對可以從互聯(lián)網上得到的資源的位置和訪問方法的一種簡潔的表示倦微,是互聯(lián)網上標準資源的地址≌梗互聯(lián)網上的每個文件都有一個唯一的URL欣福,它包含的信息指出文件的位置以及瀏覽器應該怎么處理它。
URL的格式由三部分組成:
①第一部分是協(xié)議(或稱為服務方式)焦履。
http:// https:// ftp:// file://
②第二部分是存有該資源的主機IP地址(有時也包括端口號)劣欢。
127.0.0.1 www.tanzhouedu.com
baidu.tk
頂級域名,一級域名,根域名:除了后綴以外只有一個點號
www.baidu.com 二級域名
com baidu.com cn baidu.cn shanfeng.club
com.cn org.cn
baidu.com.cn
頂級域名baidu.com baidu.com.cn
二級域名www.baidu.com mp3.baidu.com
三級域名a.b.baidu.com

③第三部分是主機資源的具體地址,如目錄和文件名等裁良。

爬蟲爬取數據時必須要有一個目標的URL才可以獲取數據凿将,因此,它是爬蟲獲取數據的基本依據价脾,準確理解它的含義對爬蟲學習有很大幫助牧抵。

4. 環(huán)境的配置

學習Python,當然少不了環(huán)境的配置侨把,該課程使用的Python版本為Python2.7.9犀变,開發(fā)工具為pycharm

5.爬蟲的重要思想

1,理論上來講只要是網頁上面能夠看到的數據都是可以爬取的(因為所有看到的網頁上的數據都是由服務器發(fā)送到我們電腦上面的秋柄,只是有的數據加密過获枝,很難解密)
2,在網頁上無法看到或者無法獲取的數據骇笔,爬蟲同樣不可能拿到省店,比如一些付費資料
3,分析頁面數據的原則是從簡到繁笨触,從易到難
1)直接通過網頁源代碼獲取
2)分析是否為ajax異步加載
3)數據是否被加密 js

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末懦傍,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子芦劣,更是在濱河造成了極大的恐慌粗俱,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件虚吟,死亡現(xiàn)場離奇詭異寸认,居然都是意外死亡,警方通過查閱死者的電腦和手機串慰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門偏塞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人模庐,你說我怎么就攤上這事烛愧。” “怎么了?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵怜姿,是天一觀的道長慎冤。 經常有香客問我,道長沧卢,這世上最難降的妖魔是什么蚁堤? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮但狭,結果婚禮上披诗,老公的妹妹穿的比我還像新娘。我一直安慰自己立磁,他們只是感情好呈队,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著唱歧,像睡著了一般宪摧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上颅崩,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天几于,我揣著相機與錄音,去河邊找鬼沿后。 笑死沿彭,一個胖子當著我的面吹牛,可吹牛的內容都是我干的尖滚。 我是一名探鬼主播喉刘,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼熔掺!你這毒婦竟也來了饱搏?” 一聲冷哼從身側響起非剃,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤置逻,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后备绽,有當地人在樹林里發(fā)現(xiàn)了一具尸體券坞,經...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年肺素,在試婚紗的時候發(fā)現(xiàn)自己被綠了恨锚。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡倍靡,死狀恐怖猴伶,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤他挎,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布筝尾,位于F島的核電站,受9級特大地震影響办桨,放射性物質發(fā)生泄漏筹淫。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一呢撞、第九天 我趴在偏房一處隱蔽的房頂上張望损姜。 院中可真熱鬧,春花似錦殊霞、人聲如沸摧阅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽逸尖。三九已至,卻和暖如春瘸右,著一層夾襖步出監(jiān)牢的瞬間娇跟,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工太颤, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留苞俘,地道東北人。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓龄章,卻偏偏與公主長得像吃谣,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子做裙,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內容