爬蟲01

數(shù)據(jù)如何產(chǎn)生兼蜈？

1.大公司亩冬，大企業(yè)：通過用戶產(chǎn)生

2.大的數(shù)據(jù)平臺(tái)：通過收集或者其他企業(yè)或者公司合作

3.國家或政府機(jī)構(gòu)：通過省縣鄉(xiāng)或者其他方式統(tǒng)計(jì)匯總產(chǎn)生

4.數(shù)據(jù)咨詢公司：通過收集或者其他企業(yè)或者合作公司词顾，會(huì)根據(jù)數(shù)據(jù)做分析對(duì)比形成報(bào)表映琳，給你做參考

以上方式都用不上的情況下就要用到爬蟲

什么是爬蟲牙咏？

1.自動(dòng)獲取網(wǎng)頁的數(shù)據(jù)

爬蟲有什么用途早直？

1.搜索引擎

網(wǎng)站的三大特性：

每一個(gè)資源都有一個(gè)url(資源定位符),是唯一的
網(wǎng)頁都是使用HTML（超文本）展示數(shù)據(jù)的
通過HTTP/HTTPS(超文本傳輸協(xié)議)祷肯，獲取和傳遞HTML

如何實(shí)現(xiàn)一個(gè)爬蟲沉填？

找到目標(biāo)url
根據(jù)url發(fā)起請(qǐng)求
解析響應(yīng)結(jié)果：提取目標(biāo)數(shù)據(jù)疗隶；如何存在新的url，需要進(jìn)一步提纫砟帧（會(huì)執(zhí)行1-3這個(gè)循環(huán)）
爬蟲結(jié)束：所有符合條件的url請(qǐng)求全部獲取完畢斑鼻，意味著爬蟲結(jié)束

為什么要使用python做爬蟲？

Python：語法簡(jiǎn)潔橄碾，代碼優(yōu)美卵沉，可讀性比較高，并且對(duì)各模塊的支持比較好法牲，有很多強(qiáng)大的三方包史汗，對(duì)多任務(wù)的處理也比較好，urllib拒垃，request都能夠很好的幫助我們實(shí)現(xiàn)一個(gè)爬蟲項(xiàng)目停撞，解析的庫也非常多（lxml，bs4悼瓮， pyquery...）戈毒，并且還有強(qiáng)大的scrapy爬蟲框架和scrapy_redis分布式爬蟲框架，并且python作為一門膠水語言横堡，對(duì)于其他語言的調(diào)度也是非常方便的埋市。

爬蟲分為兩類：

通用爬蟲：通用爬蟲是瀏覽器的重要組成部分，將互聯(lián)網(wǎng)上所有的網(wǎng)頁下載到本地命贴，做了一個(gè)鏡像備份道宅，提取重要數(shù)據(jù)（過濾數(shù)據(jù)，分詞胸蛛，去廣告等等...）污茵；步驟跟上面的類似搜索引擎的爬取的url通過什么方式獲取的？一. 通過網(wǎng)站的外鏈二. 通過網(wǎng)頁提交url：（百度：<u>http://zhanzhang.baidu.com/linksubmit/url）</u> 三. 各大搜索引擎公司也會(huì)和DNS服務(wù)商合作通用爬蟲的缺點(diǎn)：需要遵守robot協(xié)議(爬蟲協(xié)議葬项，機(jī)器人協(xié)議)泞当；搜索引擎返回的結(jié)果千篇一律沒有很好的針對(duì)性，不能夠?qū)μ厥獾挠脩羧后w返回對(duì)應(yīng)的數(shù)據(jù)民珍；搜索引擎一般情況下獲取的是文本信息襟士，處理圖像，音頻嚷量，視頻多媒體還是有困難的

聚焦爬蟲：是面向主題的爬蟲敌蜂，由需求產(chǎn)生的，是一種定向的爬蟲津肛，在爬取網(wǎng)頁數(shù)據(jù)的時(shí)候，會(huì)對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行一些篩選汗贫，保證只抓取和需求相關(guān)的數(shù)據(jù)
做爬蟲需要掌握的基本知識(shí)：

? Python的基本語法

? 前端知識(shí)

? 數(shù)據(jù)持久化的知識(shí)（數(shù)據(jù)庫身坐，文件儲(chǔ)存）

? 了解基本的反爬蟲的手段（header請(qǐng)求頭秸脱，驗(yàn)證碼，cookie部蛇，代理）

? 靜態(tài)頁面和動(dòng)態(tài)頁面（Ajax摊唇，js，selenium（獲取的頁面源碼是經(jīng)過瀏覽器渲染之后的最終結(jié)果））

? 多任務(wù)處理涯鲁，爬蟲框架巷查，分布式爬蟲等等

HTTP:超文本傳輸協(xié)議，主要使用來將html文件傳輸?shù)奖镜貫g覽器
HTTPS:作用和HTTP一致抹腿，只是多了SSL（安全套接字）岛请，保證數(shù)據(jù)傳輸?shù)陌踩裕?/p>

a. 建立一個(gè)安全有效的數(shù)據(jù)傳輸通道，保證數(shù)據(jù)的安全性

b. 確定網(wǎng)站的安全性和有效性

url組成部分：基本格式：scheme://host[:port#]/path/…/[?query-string][#anchor]

· scheme：協(xié)議(例如：http, https, ftp)

· host：服務(wù)器的IP地址或者域名

· port#：服務(wù)器的端口（如果是走協(xié)議默認(rèn)端口警绩，缺省端口80）

· path：訪問資源的路徑

· query-string：參數(shù)崇败，發(fā)送給http服務(wù)器的數(shù)據(jù)

· anchor：錨（跳轉(zhuǎn)到網(wǎng)頁的指定錨點(diǎn)位置）

請(qǐng)求頭： User-Agent: 模擬瀏覽器加載 Cookies: 攜帶cookies第一可以維持會(huì)話，告訴瀏覽器用戶的身份信息 Refere: 告訴瀏覽器當(dāng)前請(qǐng)求是從哪個(gè)頁面發(fā)起的
常見的狀態(tài)嗎： 100~199：表示服務(wù)器成功接收部分請(qǐng)求肩祥，要求客戶端繼續(xù)提交其余請(qǐng)求才能完成整個(gè)處理過程后室。 200~299：表示服務(wù)器成功接收請(qǐng)求并已完成整個(gè)處理過程。常用200（OK 請(qǐng)求成功）混狠。 300~399：為完成請(qǐng)求岸霹，客戶需進(jìn)一步細(xì)化請(qǐng)求。例如：請(qǐng)求的資源已經(jīng)移動(dòng)一個(gè)新地址将饺、常用302（所請(qǐng)求的頁面已經(jīng)臨時(shí)轉(zhuǎn)移至新的url）贡避、 307和304（使用緩存資源）。 400~499：客戶端的請(qǐng)求有錯(cuò)誤俯逾，常用404（服務(wù)器無法找到被請(qǐng)求的頁面）贸桶、403（服務(wù)器拒絕訪問，權(quán)限不夠）桌肴，401（未認(rèn)證）皇筛。 500~599：服務(wù)器端出現(xiàn)錯(cuò)誤，常用500（請(qǐng)求未完成坠七。服務(wù)器遇到不可預(yù)知的情況）水醋。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市彪置，隨后出現(xiàn)的幾起案子拄踪，更是在濱河造成了極大的恐慌，老刑警劉巖拳魁，帶你破解...
沈念sama閱讀 221,635評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件惶桐，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)姚糊，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,543評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門贿衍，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人救恨，你說我怎么就攤上這事贸辈。” “怎么了肠槽？”我有些...
開封第一講書人閱讀 168,083評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵擎淤，是天一觀的道長。經(jīng)常有香客問我秸仙，道長嘴拢，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,640評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任筋栋，我火速辦了婚禮炊汤，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘弊攘。我一直安慰自己抢腐，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,640評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般追城。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上啼染，一...
開封第一講書人閱讀 52,262評(píng)論 1贊 308
城市分裂傳說
那天，我揣著相機(jī)與錄音焕梅，去河邊找鬼迹鹅。笑死，一個(gè)胖子當(dāng)著我的面吹牛贞言，可吹牛的內(nèi)容都是我干的斜棚。我是一名探鬼主播，決...
沈念sama閱讀 40,833評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼该窗，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼弟蚀！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起酗失，我...
開封第一講書人閱讀 39,736評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤义钉，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后规肴，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捶闸，經(jīng)...
沈念sama閱讀 46,280評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡夜畴，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,369評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鉴嗤。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片斩启。...
茶點(diǎn)故事閱讀 40,503評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖醉锅，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情发绢，我是刑警寧澤硬耍，帶...
沈念sama閱讀 36,185評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站边酒，受9級(jí)特大地震影響经柴，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜墩朦，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,870評(píng)論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一坯认、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧氓涣，春花似錦牛哺、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,340評(píng)論 0贊 24
一樁弒父案引润，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至痒玩，卻和暖如春淳附，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背蠢古。一陣腳步聲響...
開封第一講書人閱讀 33,460評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工奴曙，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人草讶。一個(gè)月前我還...
沈念sama閱讀 48,909評(píng)論 3贊 376
代替公主和親
正文我出身青樓洽糟，卻偏偏與公主長得像，于是被迫代替她去往敵國和親到涂。傳聞我的和親對(duì)象是個(gè)殘疾皇子脊框，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,512評(píng)論 2贊 359

爬蟲01

推薦閱讀更多精彩內(nèi)容