用py爬蟲抓取天貓店信息(附源代碼)

github地址:https://github.com/A-mermaid-Line-Engineer/python-begin.git
由于畢業(yè)論文要求破婆,用Python做了一個(gè)爬蟲抓取天貓店鋪基本信息该抒,在此共享潮孽。

1.安裝Python2.7版本

訪問https://www.python.org/


在Downloads列表選擇window版本直接下載安裝朴译。和平時(shí)安裝程序一樣坏快,可以參考百度經(jīng)驗(yàn)http://jingyan.baidu.com/article/19192ad8399a62e53e5707e0.html

2.安裝第三方庫beautifulsoup

http://cuiqingcai.com/1319.html 這個(gè)博客中對beautifulsoup的安裝講的十分明白笼裳。
建議直接用Python自帶的pip包安裝
在命令行中輸入

pip install beautifulsoup4

可能還需要安裝lxml唯卖,同樣的

pip install lxml

3.使用命令行運(yùn)行程序

win+r調(diào)出搜索框粱玲,輸入cmd調(diào)出親切的黑底白字
輸入 cd+空格+程序路徑獲取程序目錄
輸入 python+空格+anay.py(主程序名稱)開始運(yùn)行程序
在彈出的 Please input product:后輸入你想抓取的商品品類,例如雪地靴
等待程序自動(dòng)運(yùn)行并聲稱表格拜轨。
注:抓取前50頁大約3000條信息需要一個(gè)小時(shí)左右抽减。也可以在主程序的page中修改抓取頁數(shù)。

附:主程序源代碼

抓取天貓店鋪相關(guān)信息主程序代碼

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# version python27
'''分析內(nèi)容'''
from get_html import download_html as get
from bs4 import BeautifulSoup as bs
import re,sys,urllib
type = sys.getfilesystemencoding()
def get_url(key, page = 50):    #采集50頁的內(nèi)容撩轰,根據(jù)需求自己改
    print 'get urls...'
    keyword = urllib.quote(key.strip())
    urls = []
    i=1
    while(i<=page):
        url = "https://list.tmall.com/search_product.htm?type=pc&q=%s&totalPage=100&sort=s&style=g&from=mallfp..pc_1_suggest&suggest=0_1&jumpto=%d#J_Filter"%(keyword,i)
        urls.append(url)
        i = i + 1
    return urls
def get_content(url):
    html = get(url)
    soup = bs(html, 'lxml')
    res = soup.select(".ks-datalazyload")
    ms = re.compile(r"<em\sclass=\"count\"[\s\S]*?>([\s\S]*?)<\/em>",re.I|re.M)
    ar = re.compile(r"<li\sclass=\"locus\"[\s\S]*?>([\s\S]*?)<\/div>",re.I|re.M)
    age = re.compile(r"<span\sclass=\"tm-shop-age-content\"[\s\S]*?>([\s\S]*?)<\/span>",re.I|re.M)
    for i in res:
        try:
            s = ms.findall(str(i))
        except:
            s = ['None','None','None']
        try:
            area = ar.findall(str(i))
            areas = re.sub(r'<[^>]+>','',area[0].decode('utf-8').encode(type).strip())
            areas = areas.replace('\r','')
            areas = areas.replace('\n','')
            areas = areas.replace('\t','')
            areas = areas.replace(' ','')
        except:
            areas = 'None'
        try:
            ages = age.findall(str(i))
            agess = ages[0].decode('utf-8').encode(type).strip()
        except:
            agess = 'None'
        s.append(areas)
        s.append(agess)
    return s
def get_link(html):
    soup = bs(html ,'lxml')
    l = soup.select('.productTitle a')
    link = 'https:'+l[0].get('href')
    return link
def xls(key,url):
    keyword = urllib.quote(key.strip())
    html = get(url) 
    soup = bs(html, 'lxml')
    res = soup.select(".product-iWrap")
    p = re.compile(r"<p\sclass=\"productPrice\">([\s\S]*?)<\/p>",re.I|re.M)
    t = re.compile(r"<p\sclass=\"productTitle\">([\s\S]*?)<\/p>",re.I|re.M)
    c = re.compile(r"<p\sclass=\"productStatus\">([\s\S]*?)<\/span>",re.I|re.M)
    for i in res:
        try:
            price = re.sub(r'<[^>]+>','',p.search(str(i)).group(1)).decode('utf-8').encode(type).strip()
            title = re.sub(r'<[^>]+>','',t.search(str(i)).group(1)).decode('utf-8').encode(type).strip()
            count = re.sub(r'<[^>]+>','',c.search(str(i)).group(1)).decode('utf-8').encode(type).strip()
            link = get_link(str(i))
            con = get_content(link)
            with open(key+'.xls','a') as f:
                txt = '%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\n'%(title,price,count,con[0],con[1],con[2],con[3],con[4])
                f.write(txt)
        except:
            pass
        

key = raw_input("Please input product:")
if key.strip() == '':
    key = input("Please input product:")
urls = get_url(key)
f = open(key+'.xls','w')
title = '商品名稱\t價(jià)格\t銷量\t描述\t服務(wù)\t物流\t所在地\t開店時(shí)長\n'
f.write(title.decode('utf-8').encode(type))
f.close()
for u in urls:
    xls(key,u)
print 'End!'

通用抓取網(wǎng)頁代碼

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# version python27
'''下載網(wǎng)頁'''
import urllib2,gzip,StringIO
def download_html(url, num_retries=2):
    print 'Download url:', url
    header = {'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'accept-encoding':'gzip, deflate, sdch, br',
    'accept-language':'en-US,en;q=0.8',
    'cache-control':'max-age=0',
    'user_agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
    }
    try:
        req = urllib2.Request(url,headers = header)
        page = urllib2.urlopen(req,timeout=10)
        rpheader = page.info()
        body = page.read()
    except urllib2.URLError as e:
        print 'Download Error:', e.reason
        body = None
        if num_retries > 0:
            if hasattr(e, 'code') and 500 <= e.code < 600:
                return download_html(url, num_retries-1)
    encoding = rpheader.get("Content-Encoding")
    if encoding == 'gzip':
        content=gz_decoding(body).strip()
    else:
        content=body.strip()
    return content
def gz_decoding(data):
    compressedstream = StringIO.StringIO(data)  
    gziper = gzip.GzipFile(fileobj=compressedstream)    
    data2 = gziper.read() 
    return data2
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末胯甩,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子堪嫂,更是在濱河造成了極大的恐慌偎箫,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件皆串,死亡現(xiàn)場離奇詭異淹办,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)恶复,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進(jìn)店門怜森,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人谤牡,你說我怎么就攤上這事副硅。” “怎么了翅萤?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵恐疲,是天一觀的道長。 經(jīng)常有香客問我套么,道長培己,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任胚泌,我火速辦了婚禮省咨,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘玷室。我一直安慰自己零蓉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布阵苇。 她就那樣靜靜地躺著壁公,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绅项。 梳的紋絲不亂的頭發(fā)上紊册,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼囊陡。 笑死芳绩,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的撞反。 我是一名探鬼主播妥色,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼遏片!你這毒婦竟也來了嘹害?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤吮便,失蹤者是張志新(化名)和其女友劉穎笔呀,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體髓需,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡许师,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了僚匆。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片微渠。...
    茶點(diǎn)故事閱讀 39,977評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖咧擂,靈堂內(nèi)的尸體忽然破棺而出逞盆,到底是詐尸還是另有隱情,我是刑警寧澤松申,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布纳击,位于F島的核電站,受9級特大地震影響攻臀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜纱昧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一刨啸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧识脆,春花似錦设联、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至悉稠,卻和暖如春宫蛆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背的猛。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工耀盗, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留想虎,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓叛拷,卻偏偏與公主長得像舌厨,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子忿薇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容

  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個(gè) Awesome - XXX 系列...
    aimaile閱讀 26,482評論 6 427
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,133評論 25 707
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理裙椭,服務(wù)發(fā)現(xiàn),斷路器署浩,智...
    卡卡羅2017閱讀 134,657評論 18 139
  • 2017年4月28日 下午兩點(diǎn)多我們趕到靜寧縣天惠賓館揉燃,稍作休息就趕到靜寧四中,通過和校長班主任任課教師交...
    西風(fēng)冽閱讀 1,081評論 1 0
  • 人生瑰抵,就是選擇了你雌,就要拼命往前,放棄了就不要后悔二汛,畢竟婿崭,沒有一條路是白走的。 在這個(gè)競爭激烈的社會(huì)肴颊,要么出眾氓栈,要么...
    小犟閱讀 229評論 0 0