scrapy 框架總結(jié)

scrapy的基本用法

通過(guò)命令創(chuàng)建項(xiàng)目
scrapy startproject 項(xiàng)目名稱(chēng)
用pycharm打開(kāi)項(xiàng)目
通過(guò)命令創(chuàng)建爬蟲(chóng)
scrapy genspider 爬蟲(chóng)名稱(chēng) 域名
配置settings
robots_obey=False
Download_delay=0.5
Cookie_enable=False
自定義UserAgentMiddleWare
可以直接粘現(xiàn)成的
開(kāi)始解析數(shù)據(jù)

先規(guī)劃一下需要幾個(gè)函數(shù)
函數(shù)1跳轉(zhuǎn)到函數(shù)2使用 yield scrapy.Request(url,callback,meta,dont_filter)

將數(shù)據(jù)封裝到items,記得yield item
自定義pipelines將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)/文件中
框架總結(jié)：
scrapy執(zhí)行命令：scrapy crawl (爬蟲(chóng)文件名稱(chēng))

創(chuàng)建項(xiàng)目 scrapy startproject + 項(xiàng)目名稱(chēng)
創(chuàng)建爬蟲(chóng)文件進(jìn)入到spiders 文件夾下創(chuàng)建爬蟲(chóng)文件 scrapy genspider + 爬蟲(chóng)文件名稱(chēng) + 網(wǎng)站的域
創(chuàng)建好之后打開(kāi) pycharm 選擇虛擬環(huán)境
scrapt 項(xiàng)目的架構(gòu)(框架)
chinaz 項(xiàng)目文件夾
spiders 存放所有的爬蟲(chóng)文件
zzw.py 爬蟲(chóng)文件(解析response 響應(yīng)枚尼，提取目標(biāo)數(shù)據(jù)和url)
items.py 編寫(xiě)要爬取的字段
middiewares.py 中間件(爬蟲(chóng)中間件,下載中間件)
piplines.py 數(shù)據(jù)管道(做數(shù)據(jù)持久化)
settings.py 設(shè)置文件(設(shè)置請(qǐng)求頭，下載延遲)
scrapy.cfg 配置文件(部署項(xiàng)目的時(shí)候會(huì)用到)
yield 的作用就是把一個(gè)函數(shù)變成一個(gè) generator（生成器）筷转，帶有 yield 的函數(shù)不再是一個(gè)普通函數(shù)姑原，Python 解釋器會(huì)將其視為一個(gè) generator，帶有yeild的函數(shù)遇到y(tǒng)eild的時(shí)候就返回一個(gè)迭代值呜舒，下次迭代時(shí)锭汛，代碼從 yield 的下一條語(yǔ)句繼續(xù)執(zhí)行，而函數(shù)的本地變量看起來(lái)和上次中斷執(zhí)行前是完全一樣的袭蝗，于是函數(shù)繼續(xù)執(zhí)行唤殴，直到再次遇到 yield

     #獲取響應(yīng)的狀態(tài)碼
    status = response.status
    #獲取響應(yīng)的html文本
    html_text = response.text
    # print(status,len(html_text))
    # with open('page.html','w') as file:
    #     file.write(html_text)
    #獲取到響應(yīng)的二進(jìn)制數(shù)據(jù)
    # (當(dāng)response.text出現(xiàn)亂碼的時(shí)候，可以拿到二進(jìn)制數(shù)據(jù),進(jìn)行解碼)
    b_html = response.body
    # print(b_html)
    #獲取響應(yīng)頭
    response_headers = response.headers
    # print('響應(yīng)頭:',response_headers)
    #獲取請(qǐng)求頭
    request_headers = response.request.headers
    # print('請(qǐng)求頭:',request_headers)
    # step1:獲取的標(biāo)題和分類(lèi)的url地址

    #response.xpath可以直接根據(jù)xptah語(yǔ)法提取目標(biāo)數(shù)據(jù)mZ#category_list = response.xpath('//dl[@class="MaWebClist"]/dd')+response.xpath('//dl[@class="MaWebClist02"]/dd')
    #獲取到所有的dd標(biāo)簽,每一個(gè)都是Selector,并且存放在列表里面
    category_list = response.xpath('//div[@class="MainWebClass clearfix"]/dl/dd/a')
    # print(category_list)
    # print(len(category_list))

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末到腥，一起剝皮案震驚了整個(gè)濱河市朵逝，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌乡范，老刑警劉巖配名，帶你破解...
沈念sama閱讀 218,204評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異晋辆，居然都是意外死亡渠脉，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)瓶佳，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)芋膘，“玉大人，你說(shuō)我怎么就攤上這事霸饲∥螅” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,548評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵厚脉，是天一觀的道長(zhǎng)习寸。經(jīng)常有香客問(wèn)我，道長(zhǎng)器仗，這世上最難降的妖魔是什么融涣？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,657評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任童番，我火速辦了婚禮精钮，結(jié)果婚禮上威鹿，老公的妹妹穿的比我還像新娘。我一直安慰自己轨香，他們只是感情好忽你，可當(dāng)我...
茶點(diǎn)故事閱讀 67,689評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著臂容，像睡著了一般科雳。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上脓杉，一...
開(kāi)封第一講書(shū)人閱讀 51,554評(píng)論 1贊 305
城市分裂傳說(shuō)
那天糟秘，我揣著相機(jī)與錄音，去河邊找鬼球散。笑死尿赚，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的蕉堰。我是一名探鬼主播凌净，決...
沈念sama閱讀 40,302評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼屋讶！你這毒婦竟也來(lái)了冰寻？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,216評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤皿渗，失蹤者是張志新（化名）和其女友劉穎斩芭，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體乐疆，經(jīng)...
沈念sama閱讀 45,661評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡划乖，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,851評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了诀拭。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片迁筛。...
茶點(diǎn)故事閱讀 39,977評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖耕挨，靈堂內(nèi)的尸體忽然破棺而出细卧，到底是詐尸還是另有隱情，我是刑警寧澤筒占，帶...
沈念sama閱讀 35,697評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布贪庙，位于F島的核電站，受9級(jí)特大地震影響翰苫，放射性物質(zhì)發(fā)生泄漏止邮。R本人自食惡果不足惜这橙，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,306評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望导披。院中可真熱鬧屈扎，春花似錦、人聲如沸撩匕。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,898評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)止毕。三九已至模蜡，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間扁凛，已是汗流浹背忍疾。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,019評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谨朝，地道東北人卤妒。一個(gè)月前我還...
沈念sama閱讀 48,138評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像叠必，于是被迫代替她去往敵國(guó)和親荚孵。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,927評(píng)論 2贊 355

scrapy 框架總結(jié)

推薦閱讀更多精彩內(nèi)容