LA1 Requests庫實(shí)驗(yàn)

Request庫實(shí)戰(zhàn)

[TOC]

實(shí)例1:京東商品頁面爬取

例如我們爬取最新的榮耀V20信息,目前僅僅是將HTML內(nèi)容爬取下來

V20京東地址為:https://item.jd.com/39167157921.html

導(dǎo)入requests庫 - 輸入url - 爬取html

import requests
try:
    r = requests.get('https://item.jd.com/39167157921.html')
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print('爬取失敗')

結(jié)果為

'<!DOCTYPE HTML>\n<html lang="zh-CN">\n<head>\n    <!-- shouji -->\n    <meta http-equiv="Content-Type" content="text/html; charset=gbk" />\n    <title>華為(HUAWEI) 榮耀v20手機(jī) 魅海藍(lán) 8+128G 全網(wǎng)通【圖片 價(jià)格 品牌 報(bào)價(jià)】-京東</title>\n    <meta name="keywords" content="華為(HUAWEI) 榮耀v20手機(jī) 魅海藍(lán) 8+128G 全網(wǎng)通,華為(HUAWEI),,京東,網(wǎng)上購物"/>\n    <meta name="description" content="華為(HUAWEI) 榮耀v20手機(jī) 魅海藍(lán) 8+128G 全網(wǎng)通圖片椭迎、價(jià)格系吭、品牌樣樣齊全!【京東正品行貨,全國(guó)配送手形,心動(dòng)不如行動(dòng),立即購買享受更多優(yōu)惠哦悯恍!】" />\n    <meta name="format-detection" content="telephone=no">\n    <meta http-equiv="mobile-agent" content="format=xhtml; url=//item.m.jd.com/product/39167157921.html">\n    <meta http-equiv="mobile-agent" content="format=html5; url=//item.m.jd.com/product/39167157921.html">\n    <meta http-equiv="X-UA-Compatible" content="IE=Edge">\n    <link rel="canonical" />\n        <link rel="dns-prefetch" />\n    <link rel="dns-prefetch" />\n    <link rel="dns-prefetch" 

實(shí)例2:亞馬遜商品頁面爬取

? 為什么要用Amazon呢库糠,因?yàn)樗木W(wǎng)站加入了反扒機(jī)制,會(huì)檢測(cè)用戶域涮毫,如果是爬蟲則會(huì)拒絕訪問瞬欧,因此需要修改user-agent域來偽裝成瀏覽器

選擇一個(gè)商品網(wǎng)頁,kindle泡面器https://www.amazon.cn/dp/B07746N2J9/ref=br_bsl_pdt-1?pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=desktop-bestsellers-1&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_t=36701&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_i=desktop

import requests
url = 'https://www.amazon.cn/dp/B07746N2J9/ref=br_bsl_pdt-1?pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=desktop-bestsellers-1&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_t=36701&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_i=desktop'
try:
    kv = {'user-agent':'Mozilla/5.0'} #Chrome works too
    r = requests.get(url, headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print('爬取失敗')

實(shí)例3:百度關(guān)鍵字提交

百度關(guān)鍵字url接口:

https://www.baidu.com/s?wd=keyword

這是一個(gè)關(guān)鍵字的情況罢防,前面提到params參數(shù)可以添加參數(shù)到url黍判,所以通過添加參數(shù)params來添加搜索關(guān)鍵詞,而關(guān)鍵詞的鍵值對(duì)是以wd=value出現(xiàn)

import requests
keyword = 'Python'
try:
    kv = {'wd':keyword}
    r = requests.get('baidu.com/s',params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(t.text))
except:
    print('Failed')

實(shí)例4:網(wǎng)絡(luò)圖片的爬取和存儲(chǔ)

? 網(wǎng)絡(luò)圖片的爬取首先要取得圖片鏈接的格式篙梢,使用get取得二進(jìn)制數(shù)據(jù)后,使用write函數(shù)wb二進(jìn)制寫入

國(guó)家地理圖片爬取

試一試中國(guó)國(guó)家地理的圖片http://img0.dili360.com/ga/M01/34/17/wKgBy1SzO_SAeNc3AA6kjU76gRY482.tub.jpg

url最后的一段是文件的名稱和格式

import requests
import os
url = 'http://img0.dili360.com/ga/M01/34/17/wKgBy1SzO_SAeNc3AA6kjU76gRY482.tub.jpg'
root = 'D://pics//'
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)    #創(chuàng)建文件夾
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, 'wb') as f:
            f.write(r.content)    #二進(jìn)制文件美旧,用content返回信息
            print('File Saved')
    else:
        print('File existed')
except:
    print('Download Faild')

漂亮~

img
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末渤滞,一起剝皮案震驚了整個(gè)濱河市贬墩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌妄呕,老刑警劉巖陶舞,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異绪励,居然都是意外死亡肿孵,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門疏魏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來停做,“玉大人,你說我怎么就攤上這事大莫◎入纾” “怎么了?”我有些...
    開封第一講書人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵只厘,是天一觀的道長(zhǎng)烙丛。 經(jīng)常有香客問我,道長(zhǎng)羔味,這世上最難降的妖魔是什么河咽? 我笑而不...
    開封第一講書人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮赋元,結(jié)果婚禮上忘蟹,老公的妹妹穿的比我還像新娘。我一直安慰自己们陆,他們只是感情好寒瓦,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著坪仇,像睡著了一般杂腰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上椅文,一...
    開封第一講書人閱讀 51,631評(píng)論 1 305
  • 那天喂很,我揣著相機(jī)與錄音,去河邊找鬼皆刺。 笑死少辣,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的羡蛾。 我是一名探鬼主播漓帅,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了忙干?” 一聲冷哼從身側(cè)響起器予,我...
    開封第一講書人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎捐迫,沒想到半個(gè)月后乾翔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡施戴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年反浓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赞哗。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡雷则,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出懈玻,到底是詐尸還是另有隱情巧婶,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布涂乌,位于F島的核電站艺栈,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏湾盒。R本人自食惡果不足惜湿右,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望罚勾。 院中可真熱鬧毅人,春花似錦、人聲如沸尖殃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽送丰。三九已至缔俄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間器躏,已是汗流浹背俐载。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留登失,地道東北人遏佣。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像揽浙,于是被迫代替她去往敵國(guó)和親状婶。 傳聞我的和親對(duì)象是個(gè)殘疾皇子意敛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容