爬蟲01

數(shù)據(jù)如何產(chǎn)生兼蜈?

1.大公司亩冬,大企業(yè):通過用戶產(chǎn)生

2.大的數(shù)據(jù)平臺(tái):通過收集或者其他企業(yè)或者公司合作

3.國家或政府機(jī)構(gòu):通過省縣鄉(xiāng)或者其他方式統(tǒng)計(jì)匯總產(chǎn)生

4.數(shù)據(jù)咨詢公司:通過收集或者其他企業(yè)或者合作公司词顾,會(huì)根據(jù)數(shù)據(jù)做分析對(duì)比形成報(bào)表映琳,給你做參考

  1. 以上方式都用不上的情況下就要用到爬蟲

什么是爬蟲牙咏?

1.自動(dòng)獲取網(wǎng)頁的數(shù)據(jù)

爬蟲有什么用途早直?

1.搜索引擎

網(wǎng)站的三大特性:

  1. 每一個(gè)資源都有一個(gè)url(資源定位符),是唯一的

  2. 網(wǎng)頁都是使用HTML(超文本)展示數(shù)據(jù)的

  3. 通過HTTP/HTTPS(超文本傳輸協(xié)議)祷肯,獲取和傳遞HTML

如何實(shí)現(xiàn)一個(gè)爬蟲沉填?

  1. 找到目標(biāo)url

  2. 根據(jù)url發(fā)起請(qǐng)求

  3. 解析響應(yīng)結(jié)果:提取目標(biāo)數(shù)據(jù)疗隶;如何存在新的url,需要進(jìn)一步提纫砟帧(會(huì)執(zhí)行1-3這個(gè)循環(huán))

  4. 爬蟲結(jié)束:所有符合條件的url請(qǐng)求全部獲取完畢斑鼻,意味著爬蟲結(jié)束

為什么要使用python做爬蟲?

Python:語法簡(jiǎn)潔橄碾,代碼優(yōu)美卵沉,可讀性比較高,并且對(duì)各模塊的支持比較好法牲,有很多強(qiáng)大的三方包史汗,對(duì)多任務(wù)的處理也比較好,urllib拒垃,request都能夠很好的幫助我們實(shí)現(xiàn)一個(gè)爬蟲項(xiàng)目停撞,解析的庫也非常多(lxml,bs4悼瓮, pyquery...)戈毒,并且還有強(qiáng)大的scrapy爬蟲框架和scrapy_redis分布式爬蟲框架,并且python作為一門膠水語言横堡,對(duì)于其他語言的調(diào)度也是非常方便的埋市。

爬蟲分為兩類:

通用爬蟲:通用爬蟲是瀏覽器的重要組成部分,將互聯(lián)網(wǎng)上所有的網(wǎng)頁下載到本地命贴,做了一個(gè)鏡像備份道宅,提取重要數(shù)據(jù)(過濾數(shù)據(jù),分詞胸蛛,去廣告等等...)污茵; 步驟跟上面的類似 搜索引擎的爬取的url通過什么方式獲取的? 一. 通過網(wǎng)站的外鏈 二. 通過網(wǎng)頁提交url:(百度:<u>http://zhanzhang.baidu.com/linksubmit/url)</u> 三. 各大搜索引擎公司也會(huì)和DNS服務(wù)商合作 通用爬蟲的缺點(diǎn):需要遵守robot協(xié)議(爬蟲協(xié)議葬项,機(jī)器人協(xié)議)泞当;搜索引擎返回的結(jié)果千篇一律沒有很好的針對(duì)性,不能夠?qū)μ厥獾挠脩羧后w返回對(duì)應(yīng)的數(shù)據(jù)民珍;搜索引擎一般情況下獲取的是文本信息襟士,處理圖像,音頻嚷量,視頻多媒體還是有困難的

  1. 聚焦爬蟲: 是面向主題的爬蟲敌蜂,由需求產(chǎn)生的,是一種定向的爬蟲津肛,在爬取網(wǎng)頁數(shù)據(jù)的時(shí)候,會(huì)對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行一些篩選汗贫,保證只抓取和需求相關(guān)的數(shù)據(jù)

  2. 做爬蟲需要掌握的基本知識(shí):

? Python的基本語法

? 前端知識(shí)

? 數(shù)據(jù)持久化的知識(shí)(數(shù)據(jù)庫身坐,文件儲(chǔ)存)

? 了解基本的反爬蟲的手段(header請(qǐng)求頭秸脱,驗(yàn)證碼,cookie部蛇,代理)

? 靜態(tài)頁面和動(dòng)態(tài)頁面(Ajax摊唇,js,selenium(獲取的頁面源碼是經(jīng)過瀏覽器渲染之后的最終結(jié)果))

? 多任務(wù)處理涯鲁,爬蟲框架巷查,分布式爬蟲等等

  1. HTTP:超文本傳輸協(xié)議,主要使用來將html文件傳輸?shù)奖镜貫g覽器

  2. HTTPS:作用和HTTP一致抹腿,只是多了SSL(安全套接字)岛请,保證數(shù)據(jù)傳輸?shù)陌踩裕?/p>

a. 建立一個(gè)安全有效的數(shù)據(jù)傳輸通道,保證數(shù)據(jù)的安全性

b. 確定網(wǎng)站的安全性和有效性

  1. url組成部分: 基本格式:scheme://host[:port#]/path/…/[?query-string][#anchor]

· scheme:協(xié)議(例如:http, https, ftp)

· host:服務(wù)器的IP地址或者域名

· port#:服務(wù)器的端口(如果是走協(xié)議默認(rèn)端口警绩,缺省端口80)

· path:訪問資源的路徑

· query-string:參數(shù)崇败,發(fā)送給http服務(wù)器的數(shù)據(jù)

· anchor:錨(跳轉(zhuǎn)到網(wǎng)頁的指定錨點(diǎn)位置)

  1. 請(qǐng)求頭: User-Agent: 模擬瀏覽器加載 Cookies: 攜帶cookies第一可以維持會(huì)話,告訴瀏覽器用戶的身份信息 Refere: 告訴瀏覽器當(dāng)前請(qǐng)求是從哪個(gè)頁面發(fā)起的

  2. 常見的狀態(tài)嗎: 100~199:表示服務(wù)器成功接收部分請(qǐng)求肩祥,要求客戶端繼續(xù)提交其余請(qǐng)求才能完成整個(gè)處理過程后室。 200~299:表示服務(wù)器成功接收請(qǐng)求并已完成整個(gè)處理過程。常用200(OK 請(qǐng)求成功)混狠。 300~399:為完成請(qǐng)求岸霹,客戶需進(jìn)一步細(xì)化請(qǐng)求。例如:請(qǐng)求的資源已經(jīng)移動(dòng)一個(gè)新地址将饺、 常用302(所請(qǐng)求的頁面已經(jīng)臨時(shí)轉(zhuǎn)移至新的url)贡避、 307和304(使用緩存資源)。 400~499:客戶端的請(qǐng)求有錯(cuò)誤俯逾,常用404(服務(wù)器無法找到被請(qǐng)求的頁面)贸桶、403(服務(wù)器拒絕訪問,權(quán)限不夠)桌肴,401(未認(rèn)證)皇筛。 500~599:服務(wù)器端出現(xiàn)錯(cuò)誤,常用500(請(qǐng)求未完成坠七。服務(wù)器遇到不可預(yù)知的情況)水醋。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市彪置,隨后出現(xiàn)的幾起案子拄踪,更是在濱河造成了極大的恐慌,老刑警劉巖拳魁,帶你破解...
    沈念sama閱讀 221,635評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惶桐,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)姚糊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門贿衍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人救恨,你說我怎么就攤上這事贸辈。” “怎么了肠槽?”我有些...
    開封第一講書人閱讀 168,083評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵擎淤,是天一觀的道長。 經(jīng)常有香客問我秸仙,道長嘴拢,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,640評(píng)論 1 296
  • 正文 為了忘掉前任筋栋,我火速辦了婚禮炊汤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘弊攘。我一直安慰自己抢腐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般追城。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上啼染,一...
    開封第一講書人閱讀 52,262評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音焕梅,去河邊找鬼迹鹅。 笑死,一個(gè)胖子當(dāng)著我的面吹牛贞言,可吹牛的內(nèi)容都是我干的斜棚。 我是一名探鬼主播,決...
    沈念sama閱讀 40,833評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼该窗,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼弟蚀!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起酗失,我...
    開封第一講書人閱讀 39,736評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤义钉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后规肴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捶闸,經(jīng)...
    沈念sama閱讀 46,280評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡夜畴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鉴嗤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片斩启。...
    茶點(diǎn)故事閱讀 40,503評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖醉锅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情发绢,我是刑警寧澤硬耍,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站边酒,受9級(jí)特大地震影響经柴,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜墩朦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評(píng)論 3 333
  • 文/蒙蒙 一坯认、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧氓涣,春花似錦牛哺、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至痒玩,卻和暖如春淳附,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蠢古。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評(píng)論 1 272
  • 我被黑心中介騙來泰國打工奴曙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人草讶。 一個(gè)月前我還...
    沈念sama閱讀 48,909評(píng)論 3 376
  • 正文 我出身青樓洽糟,卻偏偏與公主長得像,于是被迫代替她去往敵國和親到涂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子脊框,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 爬蟲概述 1. 目錄清單 爬蟲簡(jiǎn)介 通用爬蟲和聚焦爬蟲 網(wǎng)絡(luò)請(qǐng)求那些事兒 網(wǎng)絡(luò)數(shù)據(jù)抓包分析 2. 章節(jié)內(nèi)容 2.1...
    小皇帝s閱讀 694評(píng)論 0 1
  • 爬蟲概述 1.目錄清單 爬蟲簡(jiǎn)介 通用爬蟲和聚焦爬蟲 網(wǎng)絡(luò)請(qǐng)求那些事兒 網(wǎng)絡(luò)數(shù)據(jù)抓包分析 2.章節(jié)內(nèi)容 2.1爬蟲...
    盧子野閱讀 393評(píng)論 0 0
  • 前端開發(fā)者丨h(huán)ttp請(qǐng)求 https:www.rokub.com 前言見解有限, 如有描述不當(dāng)之處践啄, 請(qǐng)幫忙指出浇雹,...
    麋鹿_720a閱讀 10,934評(píng)論 11 31
  • HTTP基本原理 URI、URL屿讽、URN(Uninform Resource) URI(Identifier):統(tǒng)...
    GHope閱讀 2,085評(píng)論 2 26
  • 我聽到了炭火烤肉的滋滋聲昭灵, 她的話已然穿透了我的皮肉吠裆, 正在以一顆流星劃過的趨勢(shì), 沖向我的心肝脾肺腎烂完。 所幸這些...
    扶斯特閱讀 152評(píng)論 0 1