某z手機(jī)信息爬取

一、爬取準(zhǔn)備

網(wǎng)站分析
- 總體分析：經(jīng)過(guò)分析發(fā)現(xiàn)，中關(guān)村手機(jī)基本上都是傳統(tǒng)的網(wǎng)頁(yè)模式，并沒(méi)有用到前后端分離（json傳輸數(shù)據(jù)），這個(gè)時(shí)候只要對(duì)頁(yè)面的URL進(jìn)行分析
- URL分析：url也是規(guī)規(guī)矩矩的拼接
  
  subcate57_list_1.html
  
  末尾的list_1拴测，這里的數(shù)字代替頁(yè)數(shù)
- 然后通過(guò)每個(gè)手機(jī)的鏈接獲得其手機(jī)代號(hào)（姑且取名叫代號(hào)吧）
```
手機(jī)信息url：cell_phone/index1241574.shtml
        這個(gè)url里index后的幾位數(shù)字即為手機(jī)代號(hào)
手機(jī)詳細(xì)參數(shù)url：cn/1242/1241574/param.shtml
        很容易發(fā)現(xiàn)中間的4位數(shù)字是后面長(zhǎng)數(shù)字前4位+1（1242 = 1241xxxx+1），接下來(lái)可以開(kāi)干了
```

二府蛇、代碼

scrapy

代碼很簡(jiǎn)單集索，就不貼出來(lái)了

... ...

考慮到要存入到Mysql數(shù)據(jù)庫(kù)，一直苦于沒(méi)有像MongoDB汇跨，redis那么好用务荆，如果每條都建立一個(gè)連接，就scrapy這個(gè)爬取速度肯定是吃不消的穷遂，網(wǎng)上找了一個(gè)處理scrapy—mysql的例子函匕，用起來(lái)挺舒服的，而且查看了Mysql蚪黑，并沒(méi)有造成阻塞盅惜，數(shù)據(jù)丟失，連接數(shù)爆炸等情況忌穿，所以重點(diǎn)分享一下這個(gè)Pipeline抒寂，最后記得到settings里啟用

# pipelines.py

class MysqlPipelineZ(object):
    def __init__(self, dbpool):
        self.dbpool = dbpool

    @classmethod
    def from_settings(cls, settings): 
        """
        數(shù)據(jù)庫(kù)建立連接
        :param settings: 配置參數(shù)
        :return: 實(shí)例化參數(shù)
        """
        adbparams = dict(
            host=settings['MYSQL_HOST'],
            db=settings['MYSQL_DB'],
            user=settings['MYSQL_USER'],
            password=settings['MYSQL_PASSWORD'],
            cursorclass=pymysql.cursors.DictCursor  # 指定cursor類(lèi)型
        )
        # 連接數(shù)據(jù)池ConnectionPool，使用pymysql
        dbpool = adbapi.ConnectionPool('pymysql', **adbparams)
        # 返回實(shí)例化參數(shù)
        return cls(dbpool)

    def process_item(self, item, spider):
        """
        使用twisted將MySQL插入變成異步執(zhí)行掠剑。通過(guò)連接池執(zhí)行具體的sql操作屈芜，返回一個(gè)對(duì)象
        """
        query = self.dbpool.runInteraction(self.do_insert, item)  # 指定操作方法和操作數(shù)據(jù)
        # 添加異常處理
        query.addCallback(self.handle_error)  # 處理異常

    def do_insert(self, cursor, item):
        # 對(duì)數(shù)據(jù)庫(kù)進(jìn)行插入操作，并不需要commit朴译，twisted會(huì)自動(dòng)commit
        insert_sql = """
        insert into zolPhone(model,sellTime,updateTime) VALUES (%s,%s,%s)
                    """
        cursor.execute(insert_sql, (item['phone_name'], item['sell_time'], item['update_time']))

    def handle_error(self, failure):
        if failure:
            # 打印錯(cuò)誤信息
            print(failure)

三沸伏、小結(jié)

整個(gè)爬取過(guò)程和速度非常滿(mǎn)意，之前偷懶用requests爬取大約20min动分，改用scrapy大概40s，好久沒(méi)寫(xiě)新的爬蟲(chóng)了红选，都快要忘記最初的興趣了澜公，希望來(lái)年多多歷練，大家一起進(jìn)步！

最后編輯于：2019.01.08 16:47:26

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末坟乾，一起剝皮案震驚了整個(gè)濱河市迹辐，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌甚侣，老刑警劉巖明吩，帶你破解...
沈念sama閱讀 218,546評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異殷费，居然都是意外死亡印荔，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,224評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)详羡，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)仍律，“玉大人，你說(shuō)我怎么就攤上這事实柠∷” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,911評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵窒盐，是天一觀的道長(zhǎng)草则。經(jīng)常有香客問(wèn)我，道長(zhǎng)蟹漓，這世上最難降的妖魔是什么炕横？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,737評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮牧牢，結(jié)果婚禮上看锉，老公的妹妹穿的比我還像新娘。我一直安慰自己塔鳍，他們只是感情好伯铣，可當(dāng)我...
茶點(diǎn)故事閱讀 67,753評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著轮纫，像睡著了一般腔寡。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上掌唾，一...
開(kāi)封第一講書(shū)人閱讀 51,598評(píng)論 1贊 305
城市分裂傳說(shuō)
那天放前，我揣著相機(jī)與錄音，去河邊找鬼糯彬。笑死凭语，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的撩扒。我是一名探鬼主播似扔，決...
沈念sama閱讀 40,338評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了炒辉？” 一聲冷哼從身側(cè)響起豪墅，我...
開(kāi)封第一講書(shū)人閱讀 39,249評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎黔寇，沒(méi)想到半個(gè)月后偶器，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,696評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡缝裤，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,888評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年屏轰，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片倘是。...
茶點(diǎn)故事閱讀 40,013評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡亭枷，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出搀崭，到底是詐尸還是另有隱情叨粘，我是刑警寧澤，帶...
沈念sama閱讀 35,731評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布瘤睹，位于F島的核電站升敲，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏轰传。R本人自食惡果不足惜驴党，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,348評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望获茬。院中可真熱鬧港庄，春花似錦、人聲如沸恕曲。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,929評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)佩谣。三九已至把还，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間茸俭，已是汗流浹背吊履。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,048評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留调鬓，地道東北人艇炎。一個(gè)月前我還...
沈念sama閱讀 48,203評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像腾窝，于是被迫代替她去往敵國(guó)和親冕臭。傳聞我的和親對(duì)象是個(gè)殘疾皇子腺晾，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,960評(píng)論 2贊 355