項目背景
當代社會的發(fā)展理念里流行一種模式叫做“共享經濟”舶沛,提起這個詞,大家肯定會立刻聯(lián)想到共享單車吧窗价。曾幾何時如庭,當你出門在外的時候,經常會看到路邊齊刷刷停了一排五顏六色的共享單車撼港。而在所有的共享單車里坪它,我對摩拜一直以來都有一種莫名的好感骤竹,因為在它初在上海運營的時候我們就因為機緣相遇相識了,而接著在我出差日本三個月回來之后它已經無處不在了往毡。當我回國的時候正好是2016年8月蒙揣,摩拜也恰巧在這個月收獲了B輪融資,我很好奇這段時間它在上海這座城市是如何收獲人們的芳心开瞭,得到迅速發(fā)展的懒震。為此,需要獲取到相關的摩拜使用數據來展開數據分析嗤详。幸運的是挎狸,在Udacity報名學習了數據分析(進階)納米學位課程,其中最后一個項目實踐中就包含了來源于上海SODA比賽的摩拜樣本數據断楷,下面就開始用摩拜數據講故事~
項目簡介
本項目基于上海城區(qū)2016年8月隨機抽樣的百萬條摩拜單車使用數據锨匆,利用Tableau工具進行探索可視化分析,從中發(fā)現(xiàn)一些有趣的現(xiàn)象或趨勢冬筒。
數據來源和數據集
本項目使用的數據集來源于上海SODA比賽樣本數據恐锣,該數據集為摩拜提供的上海城區(qū)2016年8月隨機抽樣百萬條用戶使用數據,包含以下字段:起點經緯度舞痰、終點經緯度土榴、開始時間、結束時間响牛、用戶ID玷禽、車輛ID、交易編號呀打。
目的
主要希望透過摩拜使用數據矢赁,發(fā)現(xiàn)用戶使用規(guī)律,從而了解摩拜單車得以快速發(fā)展的原因贬丛,進一步思考還可以做些什么撩银。
針對摩拜使用回答以下幾個問題:
1. 訂單量、單車數和用戶數的日變化豺憔?24小時訂單量變化额获?
2. 騎行起點的時空分布?
3. 用戶(不活躍用戶、活躍用戶、粘性用戶)分布概況喂击?
4. 車輛(新單車、老單車境肾、超級單車)分布概況?
5. 騎行距離分布?
6. 騎行時間分布准夷?
技能工具
本項目使用的工具以Tableau為主钥飞,Python為輔。Tableau用于可視化分析和故事呈現(xiàn)衫嵌,Python用于清洗處理經緯度數據以及計算額外有效字段等读宙。
可視化分析
訂單量、單車數和用戶數的日變化楔绞?24小時訂單量變化结闸?
分析思路:首先從時間維度入手,觀察摩拜單車騎行整體概況酒朵。由于感興趣的時間分層有天桦锄、周、工作日/周末蔫耽、小時等结耀,所以依次查看了對應時間的訂單量。其中周這一層級比較特殊匙铡,因為將8月份按周劃分以后图甜,并不能保證每一周都有完整的7天,所以對比周訂單量不太合適鳖眼,因此在可視化展示中放棄了該維度黑毅。
在展示日變化的時候,我將訂單量钦讳、單車數矿瘦、用戶數放在一起橫向對比分析,并繪制了趨勢線愿卒,發(fā)現(xiàn)三者均呈快速增長趨勢缚去,不過從增速看,用戶數增長相對慢于訂單量和單車數掘猿。換句話說病游,騎行訂單量的快速增長有一部分是老用戶貢獻的。
下一步稠通,我將工作日/周末和24h放在一起縱橫對比分析,訂單量用熱力圖展示(注:這里考慮對紅綠色弱視群體的友好买猖,特意使用了藍橙色調色板)改橘,可以發(fā)現(xiàn)工作日上下班高峰期騎行訂單量激增,早高峰在7~8點玉控,晚高峰在17~19點飞主。特別注意到一點,星期三的18點騎行訂單量最多,說明大家這一天都不傾向于加班碌识,而是早早下班碾篡。周末訂單量沒有出現(xiàn)早高峰,可能是因為大家的節(jié)假日作息規(guī)律不一致筏餐,因此出行時間不一致开泽,不過到了晚上18~19點訂單量卻多了起來,也許這時候有些人準備回家吃飯魁瞪,也有些人準備出門約會聚餐……感興趣的童鞋其實可以繼續(xù)探索下這時候的人們都騎車去哪些地方了穆律。遺憾的是,我沒能找到詳細街道地圖數據文件导俘,以后有時間再作分析峦耘。
總而言之,2016年8月摩拜單車在上海進入快速發(fā)展期旅薄,訂單量辅髓、單車數、用戶數均快速增長少梁。其次利朵,摩拜使用伴隨著非常明顯的工作日上下班高峰,說明上班族成為共享單車的重要用戶群體之一猎莲。
騎行起點的時空分布绍弟?
分析思路:根據起點經緯度可以結合時間維度分析騎行起點的時空分布,為了能在地圖上顯示上海市各行政區(qū)域著洼,我從網上找了上海市市轄區(qū)的空間文件[1]樟遣,并根據原始數據中的起點經緯度通過API得到了地區(qū)名稱和地區(qū)編碼[2],通過連接這幾個文件身笤,可以在可視化中看到整個月騎行起點的空間分布豹悬,然后分別結合天、小時維度液荸,可以用動畫播放騎行起點隨時間變化的動態(tài)空間分布瞻佛。
從整個月的騎行地圖上可以看到,主要集中在市區(qū)娇钱,楊浦區(qū)最多伤柄。原因可能是這里有五角場大學城,也可能是因為這里新投放的單車數多文搂。要驗證前者需要有詳細街道地圖适刀,前面已解釋過,所以這里沒有作進一步探討煤蹭。而要驗證后者我后面會再分析車輛分布概況笔喉。
通過日訂單和24h訂單地圖的動態(tài)播放取视,可以發(fā)現(xiàn)我們在前面分析時相同的趨勢,即訂單量逐日增多常挚,上下班高峰期訂單量增多作谭。
整體來看,摩拜走的是“以市區(qū)為中心”的路線奄毡,尤其在幾個老城區(qū)非常受歡迎折欠。在一定程度上,其實摩拜訂單量可以反映“客流量”秧倾, 如今“流量”一詞在互聯(lián)網行業(yè)大行其道怨酝,流量大的地方商機自然也大,比如店鋪選址那先、廣告宣傳等等农猬。
用戶(不活躍用戶、活躍用戶售淡、粘性用戶)分布概況斤葱?
分析思路:這里的用戶屬性我想到的是按整個月內同一個用戶ID的騎車次數來劃分:
a. 不活躍用戶(騎車1次)
b. 活躍用戶(騎車2~10次)
c. 粘性用戶(騎車>10次)
用戶分組以后,我想知道這個月內不同用戶每日使用摩拜單車的情況揖闸,于是繪制了面積圖揍堕,發(fā)現(xiàn)活躍用戶(騎車2~10次)在整個月中對摩拜發(fā)展的貢獻最大,其次是粘性用戶(騎車>10次)汤纸,最后是不活躍用戶(騎車1次)衩茸。
此外,我還想知道這幾類用戶的地區(qū)分布贮泞,于是使用了小多組圖楞慈,發(fā)現(xiàn)楊浦區(qū)周圍的活躍用戶貢獻最多,而奉賢區(qū)沒有不活躍用戶啃擦,可能是由于奉賢區(qū)本身訂單量很少的緣故囊蓝。
一句話總結:活躍用戶作為整個月促進摩拜發(fā)展的主力軍,尤其是楊浦區(qū)周圍的活躍用戶令蛉。這里需要說明的是聚霜,由于原始數據中有關用戶信息的字段只有用戶ID,所以只是簡單地按騎車次數來做用戶劃分珠叔,分析結論存在一定的局限性蝎宇。以后有機會的話可以搜集更多關于用戶的字段來建立有趣的用戶畫像。
車輛(新單車运杭、老單車夫啊、超級單車)分布概況?
分析思路:車輛屬性我想到的是按整個月內同一個車輛ID被騎的次數劃分:
a. 新單車(被騎1次)
b. 老單車(被騎2~10次)
c. 超級單車(被騎>10次)
車輛分組以后辆憔,和用戶分組類似撇眯,我想知道這個月被騎的摩拜單車是新車多還是舊車多,以及各地區(qū)使用新舊摩拜單車的分布虱咧,于是我同樣繪制了面積圖和小多組圖熊榛,發(fā)現(xiàn)這個月里有大量新單車被投放使用,其次是老單車腕巡,最后是我劃分出的一類特殊單車玄坦,我定義為“超級單車”,就是被騎次數超過了10次的單車绘沉。
從空間分布圖上煎楣,發(fā)現(xiàn)楊浦區(qū)的新單車投放被使用的最多,而“超級單車”在哪里呢车伞?這位“元老”在徐匯區(qū)择懂!
這個結果反映出:新單車的大量投放顯著增加了摩拜單車的使用。這里同樣需要說明的是另玖,由于原始數據中有關車輛信息的字段只有車輛ID困曙,按被騎次數劃分的做法并不太嚴謹,被騎次數只有1次的不一定都是剛投放的新單車谦去,也有可能是這個月剛被騎了1次就成了故障車慷丽,再也沒有被“寵幸”過,所以分析結論存在一定的局限性鳄哭。
騎行距離分布要糊?
分析思路:根據原始數據中的起點和終點經緯度,我利用經緯度距離公式計算了起終點之間的距離妆丘,并按距離長短進行以下分組:
a. <1km
b. 1~3km
c. 3~10km
d. 10~50km
e. >50km
分組以后锄俄,我先總體計算了各組訂單量占比,繪制了橫向條形圖飘痛,發(fā)現(xiàn)最多的是1~3km珊膜,其次是<1km,驗證了共享單車發(fā)明的初衷“解決最后一公里”宣脉。接著我篩選出距離<3km的訂單想用填充氣泡圖比較下起點分布地區(qū)车柠,發(fā)現(xiàn)仍然是以楊浦區(qū)為首的幾個老城區(qū)分布最多。
下面按距離分組分別查看日訂單量和24h訂單量情況塑猖,依然發(fā)現(xiàn)人們的需求都集中于解決3km以內的路程問題竹祷。
這個結果不禁讓人反思,在沒有共享單車之前羊苟,人們對于3km以內的路程一般有以下幾種選擇:公交+步行塑陵、地鐵+步行、純步行等蜡励,這幾種方式無疑會耗費較多的時間成本令花,而在有了共享單車以后阻桅,可以明顯減少等待公共交通和緩慢步行的時間,讓人們能在有限的時間里到達更多的地方完成更多的事兼都。因此嫂沉,摩拜之所以能迅速崛起,很大程度上是因為它為人們贏得了更多的時間扮碧,而時間是無法用價值來衡量的趟章。
再次需要說明的是,這里為了便于分析慎王,騎行距離用起點和終點之間的直線距離來近似的做法并不嚴謹蚓土,現(xiàn)實中繞行是十分普遍的。如果可以將單車在途中上報的多個位置經緯度信息結合計算赖淤,應該可以得到相對精確的結果蜀漆。
騎行時間分布?
分析思路:根據原始數據中的開始時間和結束時間漫蛔,可以計算得到每個訂單的騎行時間(當然也包括中途可能停留的時間)嗜愈,我想知道大部分人一般會騎行多長時間,于是繪制了矩形樹圖莽龟,發(fā)現(xiàn)最普遍的騎行時間在5~10min之間蠕嫁,相應的平均距離在1km附近。
那么各個轄區(qū)的人們平均騎行時間和距離有沒有區(qū)別呢毯盈?我使用了符號地圖剃毒,從圓點的大小和顏色來看,各個轄區(qū)之間區(qū)別不大(除了奉賢區(qū)以外搂赋,由于奉賢區(qū)的訂單樣本數量只有10個赘阀,因此結果不具有代表性)。
從騎行時間這個維度看脑奠,我們確實可以發(fā)現(xiàn)共享單車帶來的便利基公,5~10min過去可能在步行或等待公交車的時候一晃眼就過去了,但是現(xiàn)在卻可以騎著單車來到1km以外的“輻射圈”宋欺,生活和工作效率都得到了大幅提升轰豆,這些都是摩拜帶給人們的。反之齿诞,共享騎行的流動性也會加快摩拜發(fā)展的步伐酸休,在無形中為企業(yè)以低成本迅速推廣宣傳,流量雪球越滾越大祷杈。
總結
本項目基于上海市2016年8月百萬條摩拜使用數據斑司,分別從時間序列、空間分布但汞、用戶宿刮、車輛互站、距離和騎行時間這幾個維度進行探索可視化分析,從中發(fā)現(xiàn)了以下規(guī)律:
1糙置、2016年8月摩拜在上海進入快速發(fā)展期云茸,訂單量是目、單車數谤饭、用戶數均快速增長。
2懊纳、工作日上揉抵、下班高峰期騎行量激增,“星期三不加班”現(xiàn)象突出嗤疯。
3冤今、摩拜騎行主要集中于幾個老城區(qū),尤其是楊浦區(qū)茂缚。
4戏罢、活躍用戶作為促進摩拜發(fā)展的主力軍,主要分布于楊浦區(qū)及周邊脚囊。
5龟糕、新單車的大量投放促進了摩拜的推廣使用。
6悔耘、集中于解決3km以內的路程問題讲岁。
7、最普遍的騎行時間在5~10min衬以,相應的平均距離在1km附近缓艳。
反思
由于各種原因,本項目進行的維度分析是十分有限的看峻。其實我相信“一百個人眼中有一百個哈姆雷特”阶淘,身處不同行業(yè)的人看待摩拜共享大數據的角度和眼界也是各不相同的。比如互妓,
1. 政府從城市發(fā)展的角度看溪窒,“共享騎行改變城市”,具體來說:
a. 分析就業(yè)熱力圖和學校熱力圖车猬,探究就業(yè)圈和求學圈范圍的變化
b. 結合騎行熱力圖霉猛,覆蓋公共交通盲點區(qū)域
2. 企業(yè)開疆拓土做市場調研和推廣:
a. 發(fā)現(xiàn)潛在熱點區(qū)域開拓商機
b. 分析用戶畫像和出行特征,針對目標用戶展開精細化運營
3. 旅游管理部門開展新工作:
尋找周末和節(jié)假日熱門騎行旅游路線珠闰,增設休息區(qū)和服務設施
資源
[1]?http://datav.aliyun.com/static/tools/atlas
[2]?http://gc.ditu.aliyun.com/regeocoding?l=lat,log&type=010