scrapy 框架總結(jié)

scrapy的基本用法

  1. 通過(guò)命令創(chuàng)建項(xiàng)目
    scrapy startproject 項(xiàng)目名稱(chēng)
  2. 用pycharm打開(kāi)項(xiàng)目
  3. 通過(guò)命令創(chuàng)建爬蟲(chóng)
    scrapy genspider 爬蟲(chóng)名稱(chēng) 域名
  4. 配置settings
    robots_obey=False
    Download_delay=0.5
    Cookie_enable=False
  5. 自定義UserAgentMiddleWare
    可以直接粘現(xiàn)成的
  6. 開(kāi)始解析數(shù)據(jù)
  1. 先規(guī)劃一下需要幾個(gè)函數(shù)
  2. 函數(shù)1跳轉(zhuǎn)到函數(shù)2使用 yield scrapy.Request(url,callback,meta,dont_filter)
  1. 將數(shù)據(jù)封裝到items,記得yield item
  2. 自定義pipelines將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)/文件中
    框架總結(jié):
    scrapy執(zhí)行命令:scrapy crawl (爬蟲(chóng)文件名稱(chēng))

創(chuàng)建項(xiàng)目 scrapy startproject + 項(xiàng)目名稱(chēng)
創(chuàng)建爬蟲(chóng)文件 進(jìn)入到spiders 文件夾下 創(chuàng)建爬蟲(chóng)文件 scrapy genspider + 爬蟲(chóng)文件名稱(chēng) + 網(wǎng)站的域
創(chuàng)建好之后打開(kāi) pycharm 選擇虛擬環(huán)境
scrapt 項(xiàng)目的架構(gòu)(框架)
chinaz 項(xiàng)目文件夾
spiders 存放所有的爬蟲(chóng)文件
zzw.py 爬蟲(chóng)文件(解析response 響應(yīng)枚尼,提取目標(biāo)數(shù)據(jù)和url)
items.py 編寫(xiě)要爬取的字段
middiewares.py 中間件(爬蟲(chóng)中間件,下載中間件)
piplines.py 數(shù)據(jù)管道(做數(shù)據(jù)持久化)
settings.py 設(shè)置文件(設(shè)置請(qǐng)求頭,下載延遲)
scrapy.cfg 配置文件(部署項(xiàng)目的時(shí)候會(huì)用到)
yield 的作用就是把一個(gè)函數(shù)變成一個(gè) generator(生成器)筷转,帶有 yield 的函數(shù)不再是一個(gè)普通函數(shù)姑原,Python 解釋器會(huì)將其視為一個(gè) generator,帶有yeild的函數(shù)遇到y(tǒng)eild的時(shí)候就返回一個(gè)迭代值呜舒,下次迭代時(shí)锭汛, 代碼從 yield 的下一條語(yǔ)句繼續(xù)執(zhí)行,而函數(shù)的本地變量看起來(lái)和上次中斷執(zhí)行前是完全一樣的袭蝗,于是函數(shù)繼續(xù)執(zhí)行唤殴, 直到再次遇到 yield

     #獲取響應(yīng)的狀態(tài)碼
    status = response.status
    #獲取響應(yīng)的html文本
    html_text = response.text
    # print(status,len(html_text))
    # with open('page.html','w') as file:
    #     file.write(html_text)
    #獲取到響應(yīng)的二進(jìn)制數(shù)據(jù)
    # (當(dāng)response.text出現(xiàn)亂碼的時(shí)候,可以拿到二進(jìn)制數(shù)據(jù),進(jìn)行解碼)
    b_html = response.body
    # print(b_html)
    #獲取響應(yīng)頭
    response_headers = response.headers
    # print('響應(yīng)頭:',response_headers)
    #獲取請(qǐng)求頭
    request_headers = response.request.headers
    # print('請(qǐng)求頭:',request_headers)
    # step1:獲取的標(biāo)題和分類(lèi)的url地址

    #response.xpath可以直接根據(jù)xptah語(yǔ)法提取目標(biāo)數(shù)據(jù)mZ#category_list = response.xpath('//dl[@class="MaWebClist"]/dd')+response.xpath('//dl[@class="MaWebClist02"]/dd')
    #獲取到所有的dd標(biāo)簽,每一個(gè)都是Selector,并且存放在列表里面
    category_list = response.xpath('//div[@class="MainWebClass clearfix"]/dl/dd/a')
    # print(category_list)
    # print(len(category_list))
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末到腥,一起剝皮案震驚了整個(gè)濱河市朵逝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌乡范,老刑警劉巖配名,帶你破解...
    沈念sama閱讀 218,204評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異晋辆,居然都是意外死亡渠脉,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)瓶佳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)芋膘,“玉大人,你說(shuō)我怎么就攤上這事霸饲∥螅” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,548評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵厚脉,是天一觀的道長(zhǎng)习寸。 經(jīng)常有香客問(wèn)我,道長(zhǎng)器仗,這世上最難降的妖魔是什么融涣? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,657評(píng)論 1 293
  • 正文 為了忘掉前任童番,我火速辦了婚禮精钮,結(jié)果婚禮上威鹿,老公的妹妹穿的比我還像新娘。我一直安慰自己轨香,他們只是感情好忽你,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著臂容,像睡著了一般科雳。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上脓杉,一...
    開(kāi)封第一講書(shū)人閱讀 51,554評(píng)論 1 305
  • 那天糟秘,我揣著相機(jī)與錄音,去河邊找鬼球散。 笑死尿赚,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蕉堰。 我是一名探鬼主播凌净,決...
    沈念sama閱讀 40,302評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼屋讶!你這毒婦竟也來(lái)了冰寻?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,216評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤皿渗,失蹤者是張志新(化名)和其女友劉穎斩芭,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體乐疆,經(jīng)...
    沈念sama閱讀 45,661評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡划乖,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了诀拭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片迁筛。...
    茶點(diǎn)故事閱讀 39,977評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖耕挨,靈堂內(nèi)的尸體忽然破棺而出细卧,到底是詐尸還是另有隱情,我是刑警寧澤筒占,帶...
    沈念sama閱讀 35,697評(píng)論 5 347
  • 正文 年R本政府宣布贪庙,位于F島的核電站,受9級(jí)特大地震影響翰苫,放射性物質(zhì)發(fā)生泄漏止邮。R本人自食惡果不足惜这橙,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望导披。 院中可真熱鬧屈扎,春花似錦、人聲如沸撩匕。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,898評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)止毕。三九已至模蜡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間扁凛,已是汗流浹背忍疾。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,019評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谨朝,地道東北人卤妒。 一個(gè)月前我還...
    沈念sama閱讀 48,138評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像叠必,于是被迫代替她去往敵國(guó)和親荚孵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容