利用Python爬取QQ好友空間數(shù)據

程序思路

構造請求鏈接

先獲取所有的好友

獲取說說

獲取留言

獲取個人信息

把數(shù)據存到數(shù)據庫

以上就是整個過程中的大思路贞绵,然后在逐步把大思路化解成小的具體的問題去解決屁魏。

本人對于Python學習創(chuàng)建了一個小小的學習圈子秆撮,為各位提供了一個平臺劳曹,大家一起來討論學習Python捣辆。歡迎各位到來Python學習群:960410445一起討論視頻分享學習鹅很。Python是未來的發(fā)展方向,正在挑戰(zhàn)我們的分析能力及對世界的認知方式,因此税课,我們與時俱進,迎接變化账忘,并不斷的成長菠齿,掌握Python核心技術佑吝,才是掌握真正的價值所在。

基本環(huán)境配置

環(huán)境:Ubuntu 16.04

IDE: PyCharm

python 3.5

selenium : 用于模擬登錄獲取cookies

requests : 用于保存會話

json : 用于把數(shù)據進行清理绳匀,整合

urllib : 用于對鏈接的構造

pymongo : 用于對mongodb數(shù)據庫的調用

模擬登錄

首先QQ空間是需要登錄的芋忿,我們利用selenium進行模擬登錄

我們使用賬號密碼登錄,通過如下代碼可以進行模擬登錄:

構造鏈接

有過爬蟲經驗的朋友肯定知道疾棵,構造鏈接在爬蟲過程中是經常會遇到的戈钢,特別是數(shù)據需要動態(tài)加載的時候。

我們仔細來分析一下它的請求鏈接:

在chrome的Network下的js中找到qzfl_v8_2.1.65.js

這里就是獲取g_tk的算法部分是尔,轉換成python版本就是:

這個就是整個程序的核心部分殉了,只要拿到了這個g_tk,其他的就不是什么困難的地方了拟枚。

獲取所有好友的賬號

請求鏈接構造如下:

獲取好友信息如下:

獲取所有的好友的說說

先上代碼:


總結

這次對QQ空間的爬取總體來說收獲還是很大的薪铜,文章中只是大體介紹了一下過程,具體細節(jié)我希望各位能夠親自動手去做一下恩溅,授人以魚不如授人以漁隔箍,要想學好程序,不動手是肯定不行的脚乡。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末蜒滩,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子奶稠,更是在濱河造成了極大的恐慌俯艰,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件窒典,死亡現(xiàn)場離奇詭異,居然都是意外死亡稽莉,警方通過查閱死者的電腦和手機瀑志,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來污秆,“玉大人劈猪,你說我怎么就攤上這事×计矗” “怎么了战得?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長庸推。 經常有香客問我常侦,道長浇冰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任聋亡,我火速辦了婚禮肘习,結果婚禮上,老公的妹妹穿的比我還像新娘坡倔。我一直安慰自己漂佩,他們只是感情好,可當我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布罪塔。 她就那樣靜靜地躺著投蝉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪征堪。 梳的紋絲不亂的頭發(fā)上瘩缆,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天,我揣著相機與錄音请契,去河邊找鬼咳榜。 笑死,一個胖子當著我的面吹牛爽锥,可吹牛的內容都是我干的涌韩。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼氯夷,長吁一口氣:“原來是場噩夢啊……” “哼臣樱!你這毒婦竟也來了?” 一聲冷哼從身側響起腮考,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤雇毫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后踩蔚,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體棚放,經...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年馅闽,在試婚紗的時候發(fā)現(xiàn)自己被綠了飘蚯。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡福也,死狀恐怖局骤,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情暴凑,我是刑警寧澤峦甩,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站现喳,受9級特大地震影響凯傲,放射性物質發(fā)生泄漏犬辰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一泣洞、第九天 我趴在偏房一處隱蔽的房頂上張望忧风。 院中可真熱鬧,春花似錦球凰、人聲如沸狮腿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缘厢。三九已至,卻和暖如春甩挫,著一層夾襖步出監(jiān)牢的瞬間贴硫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工伊者, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留英遭,地道東北人。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓亦渗,卻偏偏與公主長得像挖诸,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子法精,可洞房花燭夜當晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內容

  • 洞見SELENIUM自動化測試 寫在最前面:目前自動化測試并不屬于新鮮的事物多律,或者說自動化測試的各種方法論已經層出...
    厲鉚兄閱讀 6,728評論 3 47
  • Python 面向對象Python從設計之初就已經是一門面向對象的語言,正因為如此搂蜓,在Python中創(chuàng)建一個類和對...
    順毛閱讀 4,218評論 4 16
  • 常用庫: fuzzywuzzy,字符串模糊匹配狼荞。 esmre,正則表達式的加速器。 Chardet字符編碼探測器帮碰,...
    AlastairYuan閱讀 2,288評論 0 43
  • 我的整個童年時代相味,父母都在強調追求有意義的人生是多么重要。他們在飯桌上討論的話題殉挽,常常是社會的不公正以及如何讓世界...
    Rose姚閱讀 423評論 0 0
  • 【京都一年】目錄·序 【便利店店員養(yǎng)成記(三)】 【Day 3 9:00~12:00】 打工第三天丰涉。最基本的收銀和...
    夜清和閱讀 424評論 0 2