R系列-2分鐘爬蟲擼起來(脈脈為例）

作為一個屌絲數(shù)據分析獅，倘若你突然來找我锣枝，可能我不是在跑數(shù)據，就是在整理數(shù)據ing（典型的數(shù)據搬運工...??)兰英；當然撇叁，偶爾在MapReduce任務剛剛開始的時候，我也會打個盹：

image

不要問我打盹的時候在干嘛畦贸，???♂?陨闹，刷脈脈！１』怠Ｇ骼鳌！

不要問我脈脈是啥＝鹤埂君账！自己百度去....（一個匿名浮躁且充滿暴擊的社區(qū)）。

有圖為證：

image

話說本屌已經被暴擊的體無完膚沈善；突然轉而一想乡数，這些經常逛脈脈的人一般都在關注些什么？

進入正題闻牡，我開始嘗試爬取脈脈“職言”板塊的帖子净赴。

究竟怎么弄，那就給你簡單粗暴的介紹一下（說詳細了你也不會看??）罩润。

“職言”板塊就一個外鏈（其實被隱藏）玖翅，沒有翻頁（其實有）靠下拉；比如下面這個圖哨啃，你下拉烧栋，鏈接永遠是這一個“https://maimai.cn/gossip_list”

image

那么如何找到真正請求的url，請遵守以下順序：點擊鼠標右鍵-檢查-Network-XHR-刷新當前頁面-從XHR中出現(xiàn)的一系列url開始尋找-找到很多值的那個url拳球；

比如以下圖片审姓，該url對應的響應數(shù)據剛好就是頁面上展示的結果，就是它祝峻！

image

那么找到了url之后我們在瀏覽器中單獨看下這個url的效果：

image

擦魔吐，這個正是我們想要的扎筒，url返回了詳細json格式數(shù)據；這里面主要的釋義如下：

text：帖子文本
author：作者time：發(fā)布時間
amts：評論數(shù)
circles_views：瀏覽數(shù)
likes：喜歡數(shù)
spreads：轉發(fā)數(shù)related_companies：話題涉及的公司名稱

好了酬姆，下面是代碼環(huán)節(jié)嗜桌，本系列采用R語言實現(xiàn)整個操作；

R的爬蟲生態(tài)明顯弱于Python辞色，不過R的實現(xiàn)過程也是非常有趣（主要是代碼簡單...)：

library(rvest)    # rvest r爬蟲library(magrittr) # 管道函數(shù)library(dplyr)    # 數(shù)據處理# 尋找到url（其中的uid骨宠、token等替換成自己的）url<-"https://maimai.cn/sdk/web/gossip_list?u=1231313&channel=www&version=4.0.0&_csrf=HrQLzvpn-LIOLmadaE&access_token=dadadada1313131&uid=dadadada&token=dadada&page=10&jsononly=1"# 請求并翻譯這個urlct <- read_html(url,encoding = "utf-8")%>%html_text()ct1 <- ct %>% fromJSON()# 提取json中對應的數(shù)據模塊text = ct1$data['text']
author = ct1$data['name']
related_companies = ct1$data['related_companies']
likes = ct1$data['likes']
cmts = ct1$data['cmts']
spreads = ct1$data['spreads']
fheight = ct1$data['fheight']
time = ct1$data['time']# 數(shù)據合并result = data.frame(text = text,author=author,related_companies=related_companies,
                    likes=likes,cmts=cmts,spreads=spreads,fheight=fheight,time = time,
                    stringsAsFactors = F)result$company = apply(related_companies,1,function(x)x[[1]]$name)result = select(result,text,name,likes,cmts,time,company)# 預覽head(result,10)

弄完之后，通過預覽相满，數(shù)據都被整齊的扒下來了：

image

上面就是教你怎么直接爬取脈脈數(shù)據的方法层亿，直接開擼吧??！

回到之前的疑問立美，當我們在玩脈脈的時候我們在關注著什么匿又，請看下回！

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末建蹄，一起剝皮案震驚了整個濱河市碌更，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌洞慎，老刑警劉巖痛单，帶你破解...
沈念sama閱讀 217,185評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異拢蛋，居然都是意外死亡桦他，警方通過查閱死者的電腦和手機蔫巩，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門谆棱，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人圆仔，你說我怎么就攤上這事垃瞧。” “怎么了坪郭？”我有些...
開封第一講書人閱讀 163,524評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵个从，是天一觀的道長。經常有香客問我歪沃，道長嗦锐，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,339評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任沪曙，我火速辦了婚禮奕污，結果婚禮上，老公的妹妹穿的比我還像新娘液走。我一直安慰自己碳默，他們只是感情好贾陷，可當我...
茶點故事閱讀 67,387評論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著嘱根，像睡著了一般髓废。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上该抒，一...
開封第一講書人閱讀 51,287評論 1贊 301
城市分裂傳說
那天慌洪，我揣著相機與錄音，去河邊找鬼凑保。笑死蒋譬，一個胖子當著我的面吹牛，可吹牛的內容都是我干的愉适。我是一名探鬼主播犯助，決...
沈念sama閱讀 40,130評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼维咸！你這毒婦竟也來了剂买？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 38,985評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤癌蓖，失蹤者是張志新（化名）和其女友劉穎瞬哼，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體租副，經...
沈念sama閱讀 45,420評論 1贊 313
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡坐慰，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,617評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了用僧。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片结胀。...
茶點故事閱讀 39,779評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖责循，靈堂內的尸體忽然破棺而出糟港，到底是詐尸還是另有隱情，我是刑警寧澤院仿，帶...
沈念sama閱讀 35,477評論 5贊 345
?日本核電站爆炸內幕
正文年R本政府宣布秸抚，位于F島的核電站，受9級特大地震影響歹垫，放射性物質發(fā)生泄漏剥汤。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,088評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一排惨、第九天我趴在偏房一處隱蔽的房頂上張望吭敢。院中可真熱鬧，春花似錦若贮、人聲如沸省有。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,716評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽蠢沿。三九已至伸头，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間舷蟀，已是汗流浹背恤磷。一陣腳步聲響...
開封第一講書人閱讀 32,857評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留野宜，地道東北人扫步。一個月前我還...
沈念sama閱讀 47,876評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像匈子，于是被迫代替她去往敵國和親河胎。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,700評論 2贊 354

R系列-2分鐘爬蟲擼起來(脈脈為例）

推薦閱讀更多精彩內容