使用 Rodeo 分析總統(tǒng)候選人的推特內(nèi)容

介紹

選舉季已經(jīng)到來御板,對于每個一直在關(guān)注這些事情的人來說,這絕對是一場最瘋狂牛郑、涉及最多社交媒體怠肋、充滿戲劇性的選舉。距離最后的選舉已經(jīng)不到3個月淹朋,各個州的投票結(jié)果也逐漸地公示出來笙各,我們認(rèn)為是時候,通過分析候選人的演講內(nèi)容础芍,以及他們與大眾的互動情況杈抢,來了解這些候選人的競選方式了。

1

想要分析社交媒體上的大眾對這場選舉的看法仑性,那么我們從分析候選人自己的推特內(nèi)容著手惶楼,這似乎是比較合理的。在查看诊杆、總結(jié)這些推特的特點后鲫懒,我們的目標(biāo)變?yōu)楦闱宄蜻x人用來吸引民眾注意力的詞語是哪些。

準(zhǔn)備工作

首先需要說明的最重要的一點是刽辙,我們使用 Rodeo 作為我們的 IDE窥岩,隨后調(diào)用推特的 API 來獲取所有推文,最后將使用 Tableau 來完成可視化部分宰缤。也就是說颂翼,我們的第一件事情是去 https://www.yhat.com/products/rodeo 下載 Rodeo。接下來下一步是獲取調(diào)用推特 API 的權(quán)限慨灭,我們只需要在 https://dev.twitter.com/ 上注冊一個 app朦乏,隨后我們就獲得了調(diào)用 API 的令牌秘鑰(token keys)。最后氧骤,我們需要去 https://www.tableau.com/Tableau-Download 下載 Tableau(對學(xué)生賬號免費)呻疹。

導(dǎo)入工具

2

注:你也可以使用Rodeo中的菜單操作選擇 improved package,來查找筹陵、安裝需要的包刽锤。

成為推特開發(fā)者

3

數(shù)據(jù)挖掘

經(jīng)過以上步驟后镊尺,我們的第一步是對給定用戶的推特內(nèi)容進行挖掘,并以一種數(shù)據(jù)友好的方式展現(xiàn)出來并思。上面調(diào)用API的語句是會返回 JSON 格式的推特數(shù)據(jù)庐氮,為了將數(shù)據(jù)變換為我們能夠使用的數(shù)據(jù)格式,我們使用一個 for 循環(huán)來獲取贊宋彼、轉(zhuǎn)發(fā)弄砍、日期、推文內(nèi)容输涕,并用不同的列表來分別存儲它們音婶。

4

在得到所有列表后,我們就可以將每個列表合并成一個干凈莱坎、簡潔的數(shù)據(jù)框了桃熄。

5

使用這些列,我們能搞清楚型奥,在選舉的進程中瞳收,候選人措辭方面所發(fā)生的變化,然而考慮到我們的目標(biāo)是分析推文中的關(guān)鍵詞厢汹,因此我們對候選人推文中出現(xiàn)的詞語總詞頻更感興趣螟深,我們接下來將主要關(guān)注“text”列表。

數(shù)據(jù)清洗

因為“text”列表中不僅包括了大小寫字母烫葬,還包括了一些特殊的的字符界弧,比如“@”、“:”等搭综。毫無疑問地垢箕,這些字符會在進一步的分析引發(fā)錯誤,所以我們需要對數(shù)據(jù)進行清洗兑巾。

我們的清洗目標(biāo)分為 2 步条获。首先,先將列表轉(zhuǎn)化為一個字符串蒋歌。然后帅掘,去掉一些不是特殊字符但卻屬于格式化的單詞,比如 “WWW” 和 “http.”堂油。

6

數(shù)據(jù)整理

到目前為止修档,所有推文中的句子都被分裂成了單詞,我們現(xiàn)在可以開始計算詞頻了府框。我們的首要任務(wù)是初始化一個空字典吱窝,并且往字典里添加新單詞及其詞頻。

7

該詞典包含了所有單詞及其對應(yīng)的詞頻,但里面仍然存在一些單詞院峡,它們對我們的分析沒有什么太大意義兴使。為了解決這個問題,我們首先考慮詞頻超過給定數(shù)量(在本例中是50)的單詞撕予,然后在這些單詞中,刪除我們認(rèn)為是停止詞的單詞蜈首。
8

現(xiàn)在实抡,讓我們看看 filtertrump 詞典長什么樣子:
9

數(shù)據(jù)可視化

完成了挖掘和清洗的工作后,我們就可以進行可視化了欢策。我們的第一張圖是一張條形圖吆寨,它畫出了川普推文中前20個最常使用單詞的分布。通過查看前20個最常用單詞的分布踩寇,這進一步阻止了任何特殊字符及無意義的單詞顯示在圖表上啄清。

10

利用相同的方法,只需要將前面 for 循環(huán)里的 screen_name 賦值為 “HillaryClinton”俺孙,我們就能找到希拉里·克林頓推文中前 20 個最常用單詞辣卒。
11

12

結(jié)論

現(xiàn)在,第一張圖已經(jīng)繪制完成睛榄。我們可以開始分析數(shù)據(jù)荣茫,并找出候選人之間的語言傾向和模式了。

川普的最常用詞語包括 “Hillary Clinton”场靴,“Trump”啡莉。克林頓的最常用詞語是 “Trump”旨剥,其次則是如 “Americans”咧欣,“American”,“women”轨帜,“people” 等群體性詞語魄咕。

另外,我們能看到希拉里的最常用詞語和川普有關(guān)蚌父,并且其詞頻幾乎三倍于其他單詞蚕礼。與此同時,川普的最常用單詞都指向了克林頓梢什,但其詞頻并沒有出現(xiàn)特別過分的傾斜奠蹬。同樣地,我們可以看到這些候選人間的不同之處:川普更多地喜歡使用 “me” 和 “ImWithYou” 這樣的詞來談?wù)撟约何宋纾欢肆诸D顯得更包容一些囤躁,經(jīng)常使用 “us” 和 “people” 這樣的詞。

使用 Tableau 畫出推特標(biāo)簽詞云

此外,我們可以將上文中的字典存儲起來狸演,便于下一步使用 Tableau 來實現(xiàn)可視化邢疙。使用下面的代碼,我們能將字典存儲起來:

13

一旦你運行了上面的代碼萧朝,那么你就可以在 Tableau 上打開這個 csv 文件略荡,然后按下 F1 來調(diào)整顏色,按下 F2 來調(diào)整詞云大小满哪,從而創(chuàng)建出下面的詞云:
14

15

祝賀你婿斥!到了這一步,你已經(jīng)完成了:

  1. 調(diào)用 API 來挖掘推文數(shù)據(jù)哨鸭;
  2. 清洗文本成可用的格式民宿;
  3. 對兩種不同格式的數(shù)據(jù)進行可視化;
  4. 分析候選人的語言特征像鸡。

更多課程和文章盡在微信號:「datartisan數(shù)據(jù)工匠」

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末活鹰,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子只估,更是在濱河造成了極大的恐慌志群,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蛔钙,死亡現(xiàn)場離奇詭異赖舟,居然都是意外死亡,警方通過查閱死者的電腦和手機夸楣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進店門宾抓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人豫喧,你說我怎么就攤上這事石洗。” “怎么了紧显?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵讲衫,是天一觀的道長。 經(jīng)常有香客問我孵班,道長涉兽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任篙程,我火速辦了婚禮枷畏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘虱饿。我一直安慰自己拥诡,他們只是感情好触趴,可當(dāng)我...
    茶點故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著渴肉,像睡著了一般冗懦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上仇祭,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天披蕉,我揣著相機與錄音,去河邊找鬼乌奇。 笑死没讲,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的华弓。 我是一名探鬼主播食零,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼困乒,長吁一口氣:“原來是場噩夢啊……” “哼寂屏!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起娜搂,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤迁霎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后百宇,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體考廉,經(jīng)...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年携御,在試婚紗的時候發(fā)現(xiàn)自己被綠了昌粤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,926評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡啄刹,死狀恐怖涮坐,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情誓军,我是刑警寧澤袱讹,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站昵时,受9級特大地震影響捷雕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜壹甥,卻給世界環(huán)境...
    茶點故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一救巷、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧句柠,春花似錦征绸、人聲如沸久橙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽淆衷。三九已至,卻和暖如春渤弛,著一層夾襖步出監(jiān)牢的瞬間祝拯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工她肯, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留佳头,地道東北人。 一個月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓晴氨,卻偏偏與公主長得像康嘉,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子籽前,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,871評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 前面三篇文章《使用python機器學(xué)習(xí)(一)》亭珍、《使用python機器學(xué)習(xí)(二)》、《使用python機器學(xué)習(xí)(三...
    jacksu在簡書閱讀 2,975評論 1 7
  • 這個標(biāo)題枝哄,有意思吧肄梨? 其實,有意思的還不止這個挠锥,而是故事的情節(jié)众羡。 別急!故事蓖租,如下粱侣。 她,與我也就聊過兩回蓖宦,而且每...
    安郎若素閱讀 307評論 0 1
  • 時間總是那么公平球昨,在夏天沒有完成的事情尔店,到了秋天,會實現(xiàn)嗎主慰?減肥嚣州,應(yīng)該是每個女孩一件大事。然而共螺,唯有美食與美女子不...
    木魚Leo閱讀 201評論 0 0
  • 為了保持其連貫性该肴,略記一筆。 早上懶覺藐不,9點吃早飯匀哄。 中午小魚到訪秦效,四菜一湯,吃至下午2點涎嚼。 晚上吃了幾顆花生阱州,一...
    Rabbit622閱讀 219評論 1 0