Python爬蟲實(shí)戰(zhàn)阻课，requests+xlwt模塊，爬取螺螄粉商品數(shù)據(jù)（附源碼）

前言

今天給大家介紹的是Python爬取螺螄粉商品數(shù)據(jù)艰匙，在這里給需要的小伙伴們代碼限煞，并且給出一點(diǎn)小心得。

首先是爬取之前應(yīng)該盡可能偽裝成瀏覽器而不被識(shí)別出來是爬蟲员凝，基本的是加請(qǐng)求頭署驻，但是這樣的純文本數(shù)據(jù)爬取的人會(huì)很多，所以我們需要考慮更換代理IP和隨機(jī)更換請(qǐng)求頭的方式來對(duì)螺螄粉數(shù)據(jù)進(jìn)行爬取健霹。

在每次進(jìn)行爬蟲代碼的編寫之前旺上，我們的第一步也是最重要的一步就是分析我們的網(wǎng)頁。

通過分析我們發(fā)現(xiàn)在爬取過程中速度比較慢糖埋，所以我們還可以通過禁用谷歌瀏覽器圖片宣吱、JavaScript等方式提升爬蟲爬取速度。

螺螄粉

開發(fā)工具

Python版本： 3.6

相關(guān)模塊：

requests模塊

json模塊

re模塊

time模塊

xlwt模塊

xlrd模塊

環(huán)境搭建

安裝Python并添加到環(huán)境變量瞳别，pip安裝需要的相關(guān)模塊即可征候。

文中完整代碼及Excel文件，評(píng)論留言獲取

思路分析

瀏覽器中打開我們要爬取的頁面
按F12進(jìn)入開發(fā)者工具祟敛，查看我們想要的螺螄粉商品數(shù)據(jù)在哪里
這里我們需要頁面數(shù)據(jù)就可以了

源代碼結(jié)構(gòu)

代碼實(shí)現(xiàn)

headers = {
    #'Host':'s.taobao.com',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
    'cookie':'你的Cookie',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'upgrade-insecure-requests': '1',
    'referer':'https://www.taobao.com/',
}

#請(qǐng)求網(wǎng)頁內(nèi)容
url="https://s.taobao.com/search?q=螺螄粉&ie=utf8&bcoffset=0&ntoffset=0&s=0"

#requests+請(qǐng)求頭headers
r = requests.get(url, headers=headers)
r.encoding = 'utf8'
s = (r.content)

#亂碼問題
html = s.decode('utf8')

# 初始化execl表
def initexcel():

    # 創(chuàng)建一個(gè)workbook 設(shè)置編碼
    workbook = xlwt.Workbook(encoding='utf-8')
    # 創(chuàng)建一個(gè)worksheet
    worksheet = workbook.add_sheet('sheet1')
    workbook.save('螺螄粉.xls')
    ##寫入表頭
    value1 = [["標(biāo)題", "銷售地", "銷售量", "評(píng)論數(shù)", "銷售價(jià)格", '商品惟一ID', '圖片URL']]
    book_name_xls = '螺螄粉.xls'
    write_excel_xls_append(book_name_xls, value1)

# 正則模式
p_title = '"raw_title":"(.*?)"'       #標(biāo)題
p_location = '"item_loc":"(.*?)"'    #銷售地
p_sale = '"view_sales":"(.*?)人付款"' #銷售量
p_comment = '"comment_count":"(.*?)"'#評(píng)論數(shù)
p_price = '"view_price":"(.*?)"'     #銷售價(jià)格
p_nid = '"nid":"(.*?)"'              #商品惟一ID
p_img = '"pic_url":"(.*?)"'          #圖片URL

# 數(shù)據(jù)集合
data = []

# 正則解析
title = re.findall(p_title,html)
location = re.findall(p_location,html)
sale = re.findall(p_sale,html)
comment = re.findall(p_comment,html)
price = re.findall(p_price,html)
nid = re.findall(p_nid,html)
img = re.findall(p_img,html)
for j in range(len(title)):
    data.append([title[j],location[j],sale[j],comment[j],price[j],nid[j],img[j]])

# 寫入execl
def write_excel_xls_append(path, value):
    index = len(value)  # 獲取需要寫入數(shù)據(jù)的行數(shù)
    workbook = xlrd.open_workbook(path)  # 打開工作簿
    sheets = workbook.sheet_names()  # 獲取工作簿中的所有表格
    worksheet = workbook.sheet_by_name(sheets[0])  # 獲取工作簿中所有表格中的的第一個(gè)表格
    rows_old = worksheet.nrows  # 獲取表格中已存在的數(shù)據(jù)的行數(shù)
    new_workbook = copy(workbook)  # 將xlrd對(duì)象拷貝轉(zhuǎn)化為xlwt對(duì)象
    new_worksheet = new_workbook.get_sheet(0)  # 獲取轉(zhuǎn)化后工作簿中的第一個(gè)表格
    for i in range(0, index):
        for j in range(0, len(value[i])):
            new_worksheet.write(i+rows_old, j, value[i][j])  # 追加寫入數(shù)據(jù)疤坝，注意是從i+rows_old行開始寫入
    new_workbook.save(path)  # 保存工作簿

#保存數(shù)據(jù)
book_name_xls = '螺螄粉.xls'
write_excel_xls_append(book_name_xls, data)
time.sleep(6)

如何獲取Cookie

結(jié)果展示

最后

今天的分享到這里就結(jié)束了，感興趣的朋友也可以去試試哈

對(duì)文章有問題的馆铁，或者有其他關(guān)于python的問題跑揉，可以在評(píng)論區(qū)留言或者私信我哦

覺得我分享的文章不錯(cuò)的話，可以關(guān)注一下我埠巨，或者給文章點(diǎn)贊(/≧▽≦)/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末畔裕，一起剝皮案震驚了整個(gè)濱河市衣撬，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌扮饶，老刑警劉巖具练，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異甜无，居然都是意外死亡扛点，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門岂丘，熙熙樓的掌柜王于貴愁眉苦臉地迎上來陵究，“玉大人，你說我怎么就攤上這事奥帘⊥剩” “怎么了？”我有些...
開封第一講書人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵寨蹋，是天一觀的道長松蒜。經(jīng)常有香客問我，道長已旧，這世上最難降的妖魔是什么秸苗？我笑而不...
開封第一講書人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮运褪，結(jié)果婚禮上惊楼，老公的妹妹穿的比我還像新娘。我一直安慰自己秸讹，他們只是感情好藏畅，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布登夫。她就那樣靜靜地躺著别惦，像睡著了一般附鸽。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上文虏，一...
開封第一講書人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說
那天侣诺，我揣著相機(jī)與錄音，去河邊找鬼氧秘。笑死年鸳，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的丸相。我是一名探鬼主播搔确，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了膳算？” 一聲冷哼從身側(cè)響起座硕，我...
開封第一講書人閱讀 38,985評(píng)論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎涕蜂，沒想到半個(gè)月后华匾，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡机隙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年蜘拉，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片有鹿。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡旭旭，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出葱跋，到底是詐尸還是另有隱情持寄，我是刑警寧澤，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布娱俺，位于F島的核電站稍味，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏矢否。R本人自食惡果不足惜仲闽，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一脑溢、第九天我趴在偏房一處隱蔽的房頂上張望僵朗。院中可真熱鬧，春花似錦屑彻、人聲如沸验庙。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,716評(píng)論 0贊 22
一樁弒父案社牲，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽粪薛。三九已至，卻和暖如春搏恤，著一層夾襖步出監(jiān)牢的瞬間违寿，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工熟空，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留藤巢，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓息罗，卻偏偏與公主長得像掂咒，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354

Python爬蟲實(shí)戰(zhàn)毛秘，requests+xlwt模塊饭寺，爬取螺螄粉商品數(shù)據(jù)（附源碼）