Python爬蟲實(shí)戰(zhàn)阻课,requests+xlwt模塊,爬取螺螄粉商品數(shù)據(jù)(附源碼)

前言

今天給大家介紹的是Python爬取螺螄粉商品數(shù)據(jù)艰匙,在這里給需要的小伙伴們代碼限煞,并且給出一點(diǎn)小心得。

首先是爬取之前應(yīng)該盡可能偽裝成瀏覽器而不被識(shí)別出來是爬蟲员凝,基本的是加請(qǐng)求頭署驻,但是這樣的純文本數(shù)據(jù)爬取的人會(huì)很多,所以我們需要考慮更換代理IP和隨機(jī)更換請(qǐng)求頭的方式來對(duì)螺螄粉數(shù)據(jù)進(jìn)行爬取健霹。

在每次進(jìn)行爬蟲代碼的編寫之前旺上,我們的第一步也是最重要的一步就是分析我們的網(wǎng)頁。

通過分析我們發(fā)現(xiàn)在爬取過程中速度比較慢糖埋,所以我們還可以通過禁用谷歌瀏覽器圖片宣吱、JavaScript等方式提升爬蟲爬取速度。

螺螄粉

開發(fā)工具

Python版本: 3.6

相關(guān)模塊:

requests模塊

json模塊

re模塊

time模塊

xlwt模塊

xlrd模塊

環(huán)境搭建

安裝Python并添加到環(huán)境變量瞳别,pip安裝需要的相關(guān)模塊即可征候。

文中完整代碼及Excel文件,評(píng)論留言獲取

思路分析

瀏覽器中打開我們要爬取的頁面
按F12進(jìn)入開發(fā)者工具祟敛,查看我們想要的螺螄粉商品數(shù)據(jù)在哪里
這里我們需要頁面數(shù)據(jù)就可以了

源代碼結(jié)構(gòu)

代碼實(shí)現(xiàn)

headers = {
    #'Host':'s.taobao.com',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
    'cookie':'你的Cookie',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'upgrade-insecure-requests': '1',
    'referer':'https://www.taobao.com/',
}

#請(qǐng)求網(wǎng)頁內(nèi)容
url="https://s.taobao.com/search?q=螺螄粉&ie=utf8&bcoffset=0&ntoffset=0&s=0"

#requests+請(qǐng)求頭headers
r = requests.get(url, headers=headers)
r.encoding = 'utf8'
s = (r.content)

#亂碼問題
html = s.decode('utf8')

# 初始化execl表
def initexcel():

    # 創(chuàng)建一個(gè)workbook 設(shè)置編碼
    workbook = xlwt.Workbook(encoding='utf-8')
    # 創(chuàng)建一個(gè)worksheet
    worksheet = workbook.add_sheet('sheet1')
    workbook.save('螺螄粉.xls')
    ##寫入表頭
    value1 = [["標(biāo)題", "銷售地", "銷售量", "評(píng)論數(shù)", "銷售價(jià)格", '商品惟一ID', '圖片URL']]
    book_name_xls = '螺螄粉.xls'
    write_excel_xls_append(book_name_xls, value1)

# 正則模式
p_title = '"raw_title":"(.*?)"'       #標(biāo)題
p_location = '"item_loc":"(.*?)"'    #銷售地
p_sale = '"view_sales":"(.*?)人付款"' #銷售量
p_comment = '"comment_count":"(.*?)"'#評(píng)論數(shù)
p_price = '"view_price":"(.*?)"'     #銷售價(jià)格
p_nid = '"nid":"(.*?)"'              #商品惟一ID
p_img = '"pic_url":"(.*?)"'          #圖片URL

# 數(shù)據(jù)集合
data = []

# 正則解析
title = re.findall(p_title,html)
location = re.findall(p_location,html)
sale = re.findall(p_sale,html)
comment = re.findall(p_comment,html)
price = re.findall(p_price,html)
nid = re.findall(p_nid,html)
img = re.findall(p_img,html)
for j in range(len(title)):
    data.append([title[j],location[j],sale[j],comment[j],price[j],nid[j],img[j]])

# 寫入execl
def write_excel_xls_append(path, value):
    index = len(value)  # 獲取需要寫入數(shù)據(jù)的行數(shù)
    workbook = xlrd.open_workbook(path)  # 打開工作簿
    sheets = workbook.sheet_names()  # 獲取工作簿中的所有表格
    worksheet = workbook.sheet_by_name(sheets[0])  # 獲取工作簿中所有表格中的的第一個(gè)表格
    rows_old = worksheet.nrows  # 獲取表格中已存在的數(shù)據(jù)的行數(shù)
    new_workbook = copy(workbook)  # 將xlrd對(duì)象拷貝轉(zhuǎn)化為xlwt對(duì)象
    new_worksheet = new_workbook.get_sheet(0)  # 獲取轉(zhuǎn)化后工作簿中的第一個(gè)表格
    for i in range(0, index):
        for j in range(0, len(value[i])):
            new_worksheet.write(i+rows_old, j, value[i][j])  # 追加寫入數(shù)據(jù)疤坝,注意是從i+rows_old行開始寫入
    new_workbook.save(path)  # 保存工作簿

#保存數(shù)據(jù)
book_name_xls = '螺螄粉.xls'
write_excel_xls_append(book_name_xls, data)
time.sleep(6)

如何獲取Cookie

Cookie

結(jié)果展示

結(jié)果展示

最后

今天的分享到這里就結(jié)束了 ,感興趣的朋友也可以去試試哈

對(duì)文章有問題的馆铁,或者有其他關(guān)于python的問題跑揉,可以在評(píng)論區(qū)留言或者私信我哦

覺得我分享的文章不錯(cuò)的話,可以關(guān)注一下我埠巨,或者給文章點(diǎn)贊(/≧▽≦)/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末畔裕,一起剝皮案震驚了整個(gè)濱河市衣撬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌扮饶,老刑警劉巖具练,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異甜无,居然都是意外死亡扛点,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門岂丘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來陵究,“玉大人,你說我怎么就攤上這事奥帘⊥剩” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵寨蹋,是天一觀的道長松蒜。 經(jīng)常有香客問我,道長已旧,這世上最難降的妖魔是什么秸苗? 我笑而不...
    開封第一講書人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮运褪,結(jié)果婚禮上惊楼,老公的妹妹穿的比我還像新娘。我一直安慰自己秸讹,他們只是感情好藏畅,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開白布登夫。 她就那樣靜靜地躺著别惦,像睡著了一般附鸽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上文虏,一...
    開封第一講書人閱讀 51,287評(píng)論 1 301
  • 那天侣诺,我揣著相機(jī)與錄音,去河邊找鬼氧秘。 笑死年鸳,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的丸相。 我是一名探鬼主播搔确,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了膳算?” 一聲冷哼從身側(cè)響起座硕,我...
    開封第一講書人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎涕蜂,沒想到半個(gè)月后华匾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡机隙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年蜘拉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片有鹿。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡旭旭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出葱跋,到底是詐尸還是另有隱情持寄,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布娱俺,位于F島的核電站稍味,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏矢否。R本人自食惡果不足惜仲闽,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一脑溢、第九天 我趴在偏房一處隱蔽的房頂上張望僵朗。 院中可真熱鬧,春花似錦屑彻、人聲如沸验庙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽粪薛。三九已至,卻和暖如春搏恤,著一層夾襖步出監(jiān)牢的瞬間违寿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來泰國打工熟空, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留藤巢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓息罗,卻偏偏與公主長得像掂咒,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容