本文標題原為:“Python-新時代的智慧工具(三)”
PC互聯(lián)網時代吏颖,外事不決問Google序芦,內事不決問百度吞彤,后禍起于蕭墻,凡事都問度娘...
當時曹动,用好度娘的標志在于用好關鍵字的各種巧妙組合斋日,從而能夠高效的從各種各類網站上抓取你需要的信息。
但墓陈,自2014年Mobile流量第一次大于PC流量以來恶守,發(fā)生了很多變化,信息無處不在跛蛋,多到超過了人們的承受極限熬的。
度娘老去,新鮮不在赊级,信息入口轉移到了多個平臺上押框。
在這樣的環(huán)境下,數(shù)據收集已經不是第一要務理逊,數(shù)據的“垂直維度的高效率收集”橡伞,才是第一要務。
但是晋被,要達成這一點兑徘,需要對于“計算機”領域的長期知識積累。需要善用各種先進的大數(shù)據處理工具羡洛。
比如挂脑,Python+詞云,不多說,以社交媒體上做的最好的BMW為例崭闲,上圖:
第一步:從BMW官方微博上快速取得自該賬號開立以來的所有的圖文信息肋联。
BMW官方微博的ID為:1698264705,用如下Python編程實現(xiàn)“垂直維度的高效率數(shù)據”的抓取刁俭。
嘖嘖橄仍,不到10分鐘,別摸我官方賬號自開立以來所有的文本和圖片信息都出來了牍戚。
二侮繁、分析BMW官微都在說些啥
先看看圖片,嚯如孝,442張各種圖片呢宪哩,勤勞的Social Media代理公司...
再看看文本...未清洗的數(shù)據跟未化妝的女人一樣,沒法兒看吶...
清洗過后:
上妝后:果然是駕駛者之車啊第晰,關鍵詞:”動感斋射、體驗、駕駛但荤、賽道,樂趣“涧至,夠風騷腹躁。
以上,好幾百頁微博頁面南蓬,不用一頁一頁的去翻纺非,記錄,只需要一段代碼赘方,10-20分鐘即可處理完畢烧颖,
這,就是當下時代營銷人員的效率窄陡!