1宵蛀，爬蟲入門之爬蟲基礎了解

1.什么是爬蟲

爬蟲昆著，即網絡爬蟲，大家可以理解為在網絡上爬行的一只蜘蛛术陶，互聯(lián)網就比作一張大網凑懂，而爬蟲便是在這張網上爬來爬去的蜘蛛咯，如果它遇到資源梧宫，那么它就會抓取下來接谨。想抓取什么？這個由你來控制它咯塘匣。
比如它在抓取一個網頁脓豪，在這個網中他發(fā)現(xiàn)了一條道路，其實就是指向網頁的超鏈接忌卤，那么它就可以爬到另一張網上來獲取數據扫夜。這樣，整個連在一起的大網對這之蜘蛛來說觸手可及驰徊，分分鐘爬下來不是事兒笤闯。

2.瀏覽網頁的過程

在用戶瀏覽網頁的過程中，我們可能會看到許多好看的圖片辣垒，比如 http://novel.tanzhouvip.com/ 望侈，我們會看到幾張的圖片以及百度搜索框印蔬，這個過程其實就是用戶輸入網址之后勋桶，經過DNS服務器，找到服務器主機侥猬，向服務器發(fā)出一個請求例驹，服務器經過解析之后，發(fā)送給用戶的瀏覽器 HTML退唠、JS鹃锈、CSS 等文件，瀏覽器解析出來瞧预，用戶便可以看到形形色色的圖片了屎债。
因此，用戶看到的網頁實質是由 HTML 代碼構成的垢油，爬蟲爬來的便是這些內容盆驹，通過分析和過濾這些 HTML 代碼，實現(xiàn)對圖片滩愁、文字等資源的獲取躯喇。

3.URL的含義

URL，即統(tǒng)一資源定位符硝枉，也就是我們說的網址廉丽，統(tǒng)一資源定位符是對可以從互聯(lián)網上得到的資源的位置和訪問方法的一種簡潔的表示倦微，是互聯(lián)網上標準資源的地址≌梗互聯(lián)網上的每個文件都有一個唯一的URL欣福，它包含的信息指出文件的位置以及瀏覽器應該怎么處理它。
URL的格式由三部分組成：
①第一部分是協(xié)議(或稱為服務方式)焦履。
http:// https:// ftp:// file://
②第二部分是存有該資源的主機IP地址(有時也包括端口號)劣欢。
127.0.0.1 www.tanzhouedu.com
baidu.tk
頂級域名,一級域名,根域名:除了后綴以外只有一個點號
www.baidu.com 二級域名
com baidu.com cn baidu.cn shanfeng.club
com.cn org.cn
baidu.com.cn
頂級域名baidu.com baidu.com.cn
二級域名www.baidu.com mp3.baidu.com
三級域名a.b.baidu.com

③第三部分是主機資源的具體地址，如目錄和文件名等裁良。

爬蟲爬取數據時必須要有一個目標的URL才可以獲取數據凿将，因此，它是爬蟲獲取數據的基本依據价脾，準確理解它的含義對爬蟲學習有很大幫助牧抵。

4. 環(huán)境的配置

學習Python，當然少不了環(huán)境的配置侨把，該課程使用的Python版本為Python2.7.9犀变，開發(fā)工具為pycharm

5.爬蟲的重要思想

1，理論上來講只要是網頁上面能夠看到的數據都是可以爬取的（因為所有看到的網頁上的數據都是由服務器發(fā)送到我們電腦上面的秋柄，只是有的數據加密過获枝，很難解密）
2，在網頁上無法看到或者無法獲取的數據骇笔，爬蟲同樣不可能拿到省店，比如一些付費資料
3，分析頁面數據的原則是從簡到繁笨触，從易到難
1）直接通過網頁源代碼獲取
2）分析是否為ajax異步加載
3）數據是否被加密 js

最后編輯于：2017.12.10 00:21:42

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末懦傍，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子芦劣，更是在濱河造成了極大的恐慌粗俱，老刑警劉巖，帶你破解...
沈念sama閱讀 206,723評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件虚吟，死亡現(xiàn)場離奇詭異寸认，居然都是意外死亡，警方通過查閱死者的電腦和手機串慰，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,485評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門偏塞，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人模庐，你說我怎么就攤上這事烛愧。” “怎么了？”我有些...
開封第一講書人閱讀 152,998評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵怜姿，是天一觀的道長慎冤。經常有香客問我，道長沧卢，這世上最難降的妖魔是什么蚁堤？我笑而不...
開封第一講書人閱讀 55,323評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮但狭，結果婚禮上披诗，老公的妹妹穿的比我還像新娘。我一直安慰自己立磁，他們只是感情好呈队，可當我...
茶點故事閱讀 64,355評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著唱歧，像睡著了一般宪摧。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上颅崩，一...
開封第一講書人閱讀 49,079評論 1贊 285
城市分裂傳說
那天几于，我揣著相機與錄音，去河邊找鬼沿后。笑死沿彭，一個胖子當著我的面吹牛，可吹牛的內容都是我干的尖滚。我是一名探鬼主播喉刘，決...
沈念sama閱讀 38,389評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼熔掺！你這毒婦竟也來了饱搏？” 一聲冷哼從身側響起非剃，我...
開封第一講書人閱讀 37,019評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤置逻，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后备绽，有當地人在樹林里發(fā)現(xiàn)了一具尸體券坞，經...
沈念sama閱讀 43,519評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,971評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年肺素，在試婚紗的時候發(fā)現(xiàn)自己被綠了恨锚。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,100評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡倍靡，死狀恐怖猴伶，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤他挎，帶...
沈念sama閱讀 33,738評論 4贊 324
?日本核電站爆炸內幕
正文年R本政府宣布筝尾，位于F島的核電站，受9級特大地震影響办桨，放射性物質發(fā)生泄漏筹淫。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,293評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一呢撞、第九天我趴在偏房一處隱蔽的房頂上張望损姜。院中可真熱鬧，春花似錦殊霞、人聲如沸摧阅。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,289評論 0贊 19
一樁弒父案绷蹲，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽逸尖。三九已至，卻和暖如春瘸右，著一層夾襖步出監(jiān)牢的瞬間娇跟，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,517評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工太颤，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留苞俘，地道東北人。一個月前我還...
沈念sama閱讀 45,547評論 2贊 354
代替公主和親
正文我出身青樓龄章，卻偏偏與公主長得像吃谣，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子做裙，可洞房花燭夜當晚...
茶點故事閱讀 42,834評論 2贊 345

1，爬蟲入門之爬蟲基礎了解