今日頭條爬蟲分析-爬取用戶發(fā)的所有內(nèi)容

今日頭條的用戶頁(yè)數(shù)據(jù)爬取跟頻道頁(yè)的數(shù)據(jù)爬取大部分很類似撵溃,但稍微有一點(diǎn)不一樣逊移,就是用戶主頁(yè)的接口signature有點(diǎn)不一樣,需要將當(dāng)前爬取的用戶id和分頁(yè)時(shí)間戳一起作為入?yún)鬟f進(jìn)去才能獲取到真正的signature雁竞,除了這一點(diǎn)差異外其他的都是一樣的思路歉铝,上代碼:

    def fetch_user_articles(self, user, browser):
        honey = json.loads(self.get_js())
        signature = honey['_signature']
        max_behot_time = "0"
        _as = honey['as']
        cp = honey['cp']
        if self.user_page > 0:
            signature = browser.execute_script("return window.TAC.sign(" + user.user_id+max_behot_time + ")")
        headers = {
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Connection': 'keep-alive',
            'authority': 'www.toutiao.com',
            'referer': user.media_url,
            'method': 'GET',
            'path': "/c/user/article/?page_type=1&user_id={}&max_behot_time={}&count=20&as={}&cp={}&_signature={}".format(
                user.user_id, max_behot_time, _as, cp, signature),
            'scheme': 'https'
        }
        self.s.headers.update(headers)
        req_url = "https://www.toutiao.com/c/user/article/?page_type=1&user_id={}&max_behot_time={}&count=20&as={}&cp={}&_signature={}".format(
            user.user_id, max_behot_time, _as, cp, signature)
        req = self.s.get(req_url, proxies=get_proxy_ip())
        # 通過(guò)隨機(jī)數(shù)控制請(qǐng)求速度
        time.sleep(random.random() * 2 + 2)
        data = json.loads(req.text)
        max_behot_time = str(data['next'][max_behot_time])
        if data['has_more']:
            self.user_page = self.user_page + 1
            self.parse_user_artcle(data['data'], toutiaoitem.user_id, toutiaoitem.media_url)
            #在休眠2s
            time.sleep(2)
            self.fetch_user_articles(user, browser)
        else:
            self.parse_user_artcle(data['data'], toutiaoitem.user_id, toutiaoitem.media_url)
            toutiaodb.save(self.user_artcile_list)

    def parse_user_artcle(self, items, user_id, url):
        for item in items:
            toutiaoitem = toutiaoitem()
            toutiaoitem.user_id = user_id
            toutiaoitem.source = item['source']
            toutiaoitem.title = item['title']
            toutiaoitem.source_url = 'https:' + item['display_url']
            toutiaoitem.media_url = url
            toutiaoitem.item_id = item['item_id']
            toutiaoitem.abstract = item['abstract']
            toutiaoitem.comments_count = item['comments_count']
            toutiaoitem.behot_time = item['behot_time']
            toutiaoitem.image_url = item['image_url']
            toutiaoitem.image_list = item['image_list']
            toutiaoitem.tag = item['tag']
            toutiaoitem.chinese_tag = item['chinese_tag']
            toutiaoitem.read_count = item['go_detail_count']
            toutiaoitem.article_genre = item['article_genre']
            self.user_artcile_list.append(toutiaoitem)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末谬晕,一起剝皮案震驚了整個(gè)濱河市碘裕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌攒钳,老刑警劉巖帮孔,帶你破解...
    沈念sama閱讀 218,525評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異不撑,居然都是意外死亡文兢,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門焕檬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)姆坚,“玉大人,你說(shuō)我怎么就攤上這事实愚〖婧牵” “怎么了兔辅?”我有些...
    開封第一講書人閱讀 164,862評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)击喂。 經(jīng)常有香客問(wèn)我维苔,道長(zhǎng),這世上最難降的妖魔是什么懂昂? 我笑而不...
    開封第一講書人閱讀 58,728評(píng)論 1 294
  • 正文 為了忘掉前任介时,我火速辦了婚禮,結(jié)果婚禮上凌彬,老公的妹妹穿的比我還像新娘沸柔。我一直安慰自己,他們只是感情好饿序,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,743評(píng)論 6 392
  • 文/花漫 我一把揭開白布勉失。 她就那樣靜靜地躺著,像睡著了一般原探。 火紅的嫁衣襯著肌膚如雪乱凿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,590評(píng)論 1 305
  • 那天咽弦,我揣著相機(jī)與錄音徒蟆,去河邊找鬼。 笑死型型,一個(gè)胖子當(dāng)著我的面吹牛段审,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播闹蒜,決...
    沈念sama閱讀 40,330評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼寺枉,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了绷落?” 一聲冷哼從身側(cè)響起姥闪,我...
    開封第一講書人閱讀 39,244評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎砌烁,沒想到半個(gè)月后筐喳,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,693評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡函喉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,885評(píng)論 3 336
  • 正文 我和宋清朗相戀三年避归,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片管呵。...
    茶點(diǎn)故事閱讀 40,001評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡梳毙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出捐下,到底是詐尸還是另有隱情账锹,我是刑警寧澤堂氯,帶...
    沈念sama閱讀 35,723評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站牌废,受9級(jí)特大地震影響咽白,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鸟缕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,343評(píng)論 3 330
  • 文/蒙蒙 一晶框、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧懂从,春花似錦授段、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至缘薛,卻和暖如春窍育,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背宴胧。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工漱抓, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人恕齐。 一個(gè)月前我還...
    沈念sama閱讀 48,191評(píng)論 3 370
  • 正文 我出身青樓乞娄,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親显歧。 傳聞我的和親對(duì)象是個(gè)殘疾皇子仪或,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,955評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,144評(píng)論 25 707
  • 用兩張圖告訴你,為什么你的 App 會(huì)卡頓? - Android - 掘金 Cover 有什么料士骤? 從這篇文章中你...
    hw1212閱讀 12,724評(píng)論 2 59
  • 記得有句話說(shuō)范删,靈魂和身體,必須要有一個(gè)在路上敦间。我想瓶逃,這是沒錯(cuò)的束铭,但同樣重要的是廓块,靈魂與身體也必須有一個(gè)在家里...
    一只社畜的詩(shī)意生活閱讀 277評(píng)論 1 1
  • 小美女 20180527
    疏影0701閱讀 187評(píng)論 1 1
  • 布雷迪的猴子 布雷迪不是一座山,也不是茂密的森林契沫,而是一位科學(xué)家的名字带猴。 那是一個(gè)晴朗的日子,兩只猴子坐在他們的位...
    NANA0閱讀 293評(píng)論 0 0