1、爬蟲的概念

1、爬蟲的概念

? 概念:(spider光坝,網(wǎng)絡(luò)蜘蛛)尸诽,通過互聯(lián)網(wǎng)上一個(gè)個(gè)的網(wǎng)絡(luò)節(jié)點(diǎn),進(jìn)行數(shù)據(jù)的獲取

? 分類:

? 通用爬蟲(了解):

? 主要用于搜索引擎(百度盯另、google性含,搜狗等)

? 搜索引擎工作原理:

? 核心部分:通用爬蟲按照整個(gè)互聯(lián)網(wǎng)的拓?fù)浣Y(jié)構(gòu),進(jìn)行批量的爬取鸳惯,然后進(jìn)行數(shù)據(jù)的清洗與篩選商蕴,然后存入百度的數(shù)據(jù)庫

? 檢索部分:提供給用戶一個(gè)搜索平臺(tái),并且按照一定的順序把關(guān)鍵字相關(guān)的信息展現(xiàn)出來

?

? 現(xiàn)在的搜索引擎獲取數(shù)據(jù)的方式:

? 1)通過通用爬蟲獲戎シⅰ(過程比較緩慢)

? 2)主動(dòng)提交自己的url

? 3)搜索引擎運(yùn)營商和DNS的運(yùn)營商合作(向DNS直接要一些有價(jià)值的網(wǎng)站)

? 信息的排名規(guī)則:

? 1)根據(jù)流量(用戶的點(diǎn)擊量)

? 2)競價(jià)排名究恤,根據(jù)一定的規(guī)則以及錢財(cái)?shù)纫蛩厝Q定誰在前面

? robots協(xié)議:(爬蟲的一個(gè)約定俗成一個(gè)協(xié)議)

? 爬蟲在取爬取一個(gè)網(wǎng)站的時(shí)候,首先要讀取這個(gè)網(wǎng)站robots.txt文件后德,查看該文件中規(guī)定的那些內(nèi)容可以爬取,那些不可以抄腔,在爬取的時(shí)候要嚴(yán)格遵從瓢湃。搜索引擎爬蟲在取爬取的時(shí)候一定要遵從robots協(xié)議,我們寫不需要赫蛇。

? 聚焦爬蟲:

? 根據(jù)客戶或者用戶的需求绵患,取定制的爬蟲,具有比較強(qiáng)的針對(duì)性

? 聚焦爬蟲的工作原理:

? 1悟耘、數(shù)據(jù)的抓取

? 面臨的問題:http協(xié)議落蝙、url處理等

? 反爬:用戶代理、ip禁止暂幼、驗(yàn)證碼筏勒、會(huì)話信息等

? 2、數(shù)據(jù)的解析

? 遇到的數(shù)據(jù):html旺嬉、xml管行、json

? 反爬:js動(dòng)態(tài)加載、js加密等

? 3邪媳、數(shù)據(jù)的存儲(chǔ)

? csv文件捐顷、關(guān)系型數(shù)據(jù)庫(mysql)、redis雨效、json等

? 對(duì)于爬蟲而言最核心的部分是解決反爬

內(nèi)容學(xué)習(xí)

? 1迅涮、python基礎(chǔ)

? 2、相關(guān)的庫

? 請(qǐng)求:urllib徽龟、requests叮姑、scrapy等

? 解析:正則、xpath顿肺、bs4戏溺、selenium組件等

? 3渣蜗、多任務(wù)處理

? 多進(jìn)程、多線程旷祸、協(xié)程

? 4耕拷、分布式爬蟲的部署

2、HTTP協(xié)議

? 1托享、什么是HTTP協(xié)議骚烧?

? 1)是基于請(qǐng)求與響應(yīng)的應(yīng)用層協(xié)議,底層協(xié)議TCP保證了數(shù)據(jù)可靠傳輸 2)通過url進(jìn)行客戶端與服務(wù)器之間的數(shù)據(jù)交互 3)是一種C/S(B/S)模式的協(xié)議闰围,客戶端向服務(wù)器發(fā)起請(qǐng)求赃绊,服務(wù)器處理請(qǐng)求并且返回響應(yīng) 4)該協(xié)議是一種無狀態(tài)的協(xié)議(不會(huì)記錄用戶的訪問狀態(tài))

? 2、http協(xié)議過程:

? 1)創(chuàng)建TCP鏈接:客戶端與服務(wù)器的三次握手:客戶端向服務(wù)器發(fā)出一個(gè)是否同意創(chuàng)建連接的信號(hào)羡榴、服務(wù)器回應(yīng)給客戶是否空閑(即是否可以創(chuàng)建連接) 碧查、客戶端再次向服務(wù)器發(fā)起創(chuàng)建連接的信息進(jìn)而創(chuàng)建連接;通過三次握手以后客戶端和服務(wù)器就創(chuàng)建出了一數(shù)據(jù)通路校仑,接下來就可以保證http協(xié)議包的可靠傳輸了

? 2)客戶端向服務(wù)器發(fā)起http請(qǐng)求:通過url把參數(shù)(請(qǐng)求體)以及請(qǐng)求頭傳遞給服務(wù)器忠售,請(qǐng)求方式有常見4中,常用get和post

? 請(qǐng)求頭:請(qǐng)求頭中包含了本次請(qǐng)求的相關(guān)的配置信息(比如數(shù)據(jù)格式迄沫、cookie等)稻扬,決定了客戶端和服務(wù)器進(jìn)行數(shù)據(jù)交流的方式與格式

? 請(qǐng)求體:就是參數(shù),客戶端向服務(wù)提交的內(nèi)容

? get和post請(qǐng)求的區(qū)別:

? 形式上:get請(qǐng)求參數(shù)拼接在url后面 post請(qǐng)求不體現(xiàn)在url中

? 內(nèi)容上:get請(qǐng)求有數(shù)據(jù)量的限制(不同的瀏覽器對(duì)url最大長度都有不同的限制)羊瘩,post的請(qǐng)求是不限制請(qǐng)求體數(shù)據(jù)量的(有的web服務(wù)器會(huì)有一個(gè)最大請(qǐng)求體的限制泰佳,比如阿帕奇限制為20M)

? 3)服務(wù)器處理請(qǐng)求,并且把處理結(jié)果響應(yīng)給客戶端

? 4)關(guān)閉連接:TCP的四次揮手

3尘吗、環(huán)境

? windows或linux逝她,python3.6 , pycharm(sublime)睬捶, 后期(scrapy和redis數(shù)據(jù)庫)Ubuntu系統(tǒng)

4汽绢、fiddler

?

?

面試題:

? 1、請(qǐng)您解釋一下什么是http協(xié)議侧戴?

? 2宁昭、請(qǐng)談一下get和post的區(qū)別

? 3、http協(xié)議和https協(xié)議有什么區(qū)別酗宋?

? 4积仗、http協(xié)議的常見狀態(tài)碼,及其含義蜕猫?

? 5寂曹、如何取配置https協(xié)議?

?

?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市隆圆,隨后出現(xiàn)的幾起案子漱挚,更是在濱河造成了極大的恐慌,老刑警劉巖渺氧,帶你破解...
    沈念sama閱讀 211,948評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件旨涝,死亡現(xiàn)場離奇詭異,居然都是意外死亡侣背,警方通過查閱死者的電腦和手機(jī)白华,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來贩耐,“玉大人弧腥,你說我怎么就攤上這事〕碧” “怎么了管搪?”我有些...
    開封第一講書人閱讀 157,490評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長铡买。 經(jīng)常有香客問我抛蚤,道長,這世上最難降的妖魔是什么寻狂? 我笑而不...
    開封第一講書人閱讀 56,521評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮朋沮,結(jié)果婚禮上蛇券,老公的妹妹穿的比我還像新娘。我一直安慰自己樊拓,他們只是感情好纠亚,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著筋夏,像睡著了一般蒂胞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上条篷,一...
    開封第一講書人閱讀 49,842評(píng)論 1 290
  • 那天骗随,我揣著相機(jī)與錄音,去河邊找鬼赴叹。 笑死鸿染,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的乞巧。 我是一名探鬼主播涨椒,決...
    沈念sama閱讀 38,997評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了蚕冬?” 一聲冷哼從身側(cè)響起免猾,我...
    開封第一講書人閱讀 37,741評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎囤热,沒想到半個(gè)月后猎提,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,203評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡赢乓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評(píng)論 2 327
  • 正文 我和宋清朗相戀三年忧侧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片牌芋。...
    茶點(diǎn)故事閱讀 38,673評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蚓炬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出躺屁,到底是詐尸還是另有隱情肯夏,我是刑警寧澤,帶...
    沈念sama閱讀 34,339評(píng)論 4 330
  • 正文 年R本政府宣布犀暑,位于F島的核電站驯击,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏耐亏。R本人自食惡果不足惜徊都,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望广辰。 院中可真熱鬧暇矫,春花似錦、人聲如沸择吊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽房轿。三九已至所森,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間焕济,已是汗流浹背洪唐。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評(píng)論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吼蚁,地道東北人凭需。 一個(gè)月前我還...
    沈念sama閱讀 46,394評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像粒蜈,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子枯怖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容