LA1 Requests庫實(shí)驗(yàn)

Request庫實(shí)戰(zhàn)

[TOC]

實(shí)例1：京東商品頁面爬取

例如我們爬取最新的榮耀V20信息，目前僅僅是將HTML內(nèi)容爬取下來

V20京東地址為：https://item.jd.com/39167157921.html

導(dǎo)入requests庫 - 輸入url - 爬取html

import requests
try:
    r = requests.get('https://item.jd.com/39167157921.html')
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print('爬取失敗')

結(jié)果為

'<!DOCTYPE HTML>\n<html lang="zh-CN">\n<head>\n    <!-- shouji -->\n    <meta http-equiv="Content-Type" content="text/html; charset=gbk" />\n    <title>華為（HUAWEI） 榮耀v20手機(jī) 魅海藍(lán) 8+128G 全網(wǎng)通【圖片 價(jià)格 品牌 報(bào)價(jià)】-京東</title>\n    <meta name="keywords" content="華為（HUAWEI） 榮耀v20手機(jī) 魅海藍(lán) 8+128G 全網(wǎng)通,華為（HUAWEI）,,京東,網(wǎng)上購物"/>\n    <meta name="description" content="華為（HUAWEI） 榮耀v20手機(jī) 魅海藍(lán) 8+128G 全網(wǎng)通圖片椭迎、價(jià)格系吭、品牌樣樣齊全！【京東正品行貨，全國(guó)配送手形，心動(dòng)不如行動(dòng)，立即購買享受更多優(yōu)惠哦悯恍！】" />\n    <meta name="format-detection" content="telephone=no">\n    <meta http-equiv="mobile-agent" content="format=xhtml; url=//item.m.jd.com/product/39167157921.html">\n    <meta http-equiv="mobile-agent" content="format=html5; url=//item.m.jd.com/product/39167157921.html">\n    <meta http-equiv="X-UA-Compatible" content="IE=Edge">\n    <link rel="canonical" />\n        <link rel="dns-prefetch" />\n    <link rel="dns-prefetch" />\n    <link rel="dns-prefetch"

實(shí)例2：亞馬遜商品頁面爬取

? 為什么要用Amazon呢库糠，因?yàn)樗木W(wǎng)站加入了反扒機(jī)制，會(huì)檢測(cè)用戶域涮毫，如果是爬蟲則會(huì)拒絕訪問瞬欧，因此需要修改user-agent域來偽裝成瀏覽器

選擇一個(gè)商品網(wǎng)頁，kindle泡面器https://www.amazon.cn/dp/B07746N2J9/ref=br_bsl_pdt-1?pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=desktop-bestsellers-1&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_t=36701&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_i=desktop

import requests
url = 'https://www.amazon.cn/dp/B07746N2J9/ref=br_bsl_pdt-1?pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=desktop-bestsellers-1&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_t=36701&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_i=desktop'
try:
    kv = {'user-agent':'Mozilla/5.0'} #Chrome works too
    r = requests.get(url, headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print('爬取失敗')

實(shí)例3：百度關(guān)鍵字提交

百度關(guān)鍵字url接口：

https://www.baidu.com/s?wd=keyword

這是一個(gè)關(guān)鍵字的情況罢防，前面提到params參數(shù)可以添加參數(shù)到url黍判，所以通過添加參數(shù)params來添加搜索關(guān)鍵詞，而關(guān)鍵詞的鍵值對(duì)是以wd=value出現(xiàn)

import requests
keyword = 'Python'
try:
    kv = {'wd':keyword}
    r = requests.get('baidu.com/s',params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(t.text))
except:
    print('Failed')

實(shí)例4：網(wǎng)絡(luò)圖片的爬取和存儲(chǔ)

? 網(wǎng)絡(luò)圖片的爬取首先要取得圖片鏈接的格式篙梢，使用get取得二進(jìn)制數(shù)據(jù)后，使用write函數(shù)wb二進(jìn)制寫入

國(guó)家地理圖片爬取

試一試中國(guó)國(guó)家地理的圖片http://img0.dili360.com/ga/M01/34/17/wKgBy1SzO_SAeNc3AA6kjU76gRY482.tub.jpg

url最后的一段是文件的名稱和格式

import requests
import os
url = 'http://img0.dili360.com/ga/M01/34/17/wKgBy1SzO_SAeNc3AA6kjU76gRY482.tub.jpg'
root = 'D://pics//'
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)    #創(chuàng)建文件夾
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, 'wb') as f:
            f.write(r.content)    #二進(jìn)制文件美旧，用content返回信息
            print('File Saved')
    else:
        print('File existed')
except:
    print('Download Faild')

漂亮~

img

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末渤滞，一起剝皮案震驚了整個(gè)濱河市贬墩，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌妄呕，老刑警劉巖陶舞，帶你破解...
沈念sama閱讀 218,755評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異绪励，居然都是意外死亡肿孵，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門疏魏，熙熙樓的掌柜王于貴愁眉苦臉地迎上來停做，“玉大人，你說我怎么就攤上這事大莫◎入纾” “怎么了？”我有些...
開封第一講書人閱讀 165,138評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵只厘，是天一觀的道長(zhǎng)烙丛。經(jīng)常有香客問我，道長(zhǎng)羔味，這世上最難降的妖魔是什么河咽？我笑而不...
開封第一講書人閱讀 58,791評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮赋元，結(jié)果婚禮上忘蟹，老公的妹妹穿的比我還像新娘。我一直安慰自己们陆，他們只是感情好寒瓦，可當(dāng)我...
茶點(diǎn)故事閱讀 67,794評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著坪仇，像睡著了一般杂腰。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上椅文，一...
開封第一講書人閱讀 51,631評(píng)論 1贊 305
城市分裂傳說
那天喂很，我揣著相機(jī)與錄音，去河邊找鬼皆刺。笑死少辣，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的羡蛾。我是一名探鬼主播漓帅，決...
沈念sama閱讀 40,362評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了忙干？” 一聲冷哼從身側(cè)響起器予，我...
開封第一講書人閱讀 39,264評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎捐迫，沒想到半個(gè)月后乾翔，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,724評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡施戴，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年反浓，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赞哗。...
茶點(diǎn)故事閱讀 40,040評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡雷则，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出懈玻，到底是詐尸還是另有隱情巧婶，我是刑警寧澤，帶...
沈念sama閱讀 35,742評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布涂乌，位于F島的核電站艺栈，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏湾盒。R本人自食惡果不足惜湿右，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,364評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望罚勾。院中可真熱鬧毅人，春花似錦、人聲如沸尖殃。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽送丰。三九已至缔俄，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間器躏，已是汗流浹背俐载。一陣腳步聲響...
開封第一講書人閱讀 33,060評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留登失，地道東北人遏佣。一個(gè)月前我還...
沈念sama閱讀 48,247評(píng)論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像揽浙，于是被迫代替她去往敵國(guó)和親状婶。傳聞我的和親對(duì)象是個(gè)殘疾皇子意敛，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,979評(píng)論 2贊 355