互聯(lián)網(wǎng)用戶行為分析入門

對于計劃從事互聯(lián)網(wǎng)數(shù)據(jù)分析崗位的同學(xué),尤其是應(yīng)屆生,會學(xué)習(xí)Excel磺陡、Sql猜旬、Python,甚至Java辩越、hadoop都有的去學(xué)習(xí),但是用戶行為分析是很多人都會遺漏的,而且可能都沒聽說過业筏,往往在面試的時候被問到相關(guān)問題回一臉懵圈。這篇文章就是給應(yīng)屆生或者計劃從事互聯(lián)網(wǎng)數(shù)據(jù)分析的同學(xué)在用戶行為分析上入個門鸟赫,知道如何去準(zhǔn)備蒜胖。

一.1個需求

先從一個需求說起消别,以京東會員為例,假設(shè)下面的需求(數(shù)據(jù)是虛擬的)

現(xiàn)在每天購買京東Plus會員的用戶為1千人翠勉,但是每天訪問Plus頻道的用戶高達(dá)10萬人妖啥,轉(zhuǎn)化率只有1%,
業(yè)務(wù)方(負(fù)責(zé)運(yùn)營plus會員的同事)想分析一下对碌,每天99%的用戶都是在哪里流失的荆虱,找到其中的可能的原因,
可以針對性的做一下產(chǎn)品調(diào)整或者營銷方案朽们,提高京東會員購買轉(zhuǎn)化率怀读。
image.png
image.png

二.用戶行為日志

1.概念

用戶行為,就是用戶在網(wǎng)站或者APP上所做的動作骑脱,比如:搜索內(nèi)容菜枷,瀏覽頁面,觀看視頻叁丧,購買商品啤誊,收藏,評論等等拥娄。

2.三大特點(diǎn)

數(shù)據(jù)量大:占比當(dāng)前大數(shù)據(jù)存儲至少80%以上蚊锹,瀏覽一個頁面至少產(chǎn)生幾KB字節(jié)數(shù)據(jù)

半結(jié)構(gòu)化:每個頁面/按鈕的行為數(shù)據(jù)是結(jié)構(gòu)化,但是擴(kuò)展參數(shù)比較個性稚瘾,各不相同

不可改變:行為一旦發(fā)生即已過去牡昆,不可變更(相對一筆訂單而言,從下單一直最后的退貨摊欠,狀態(tài)一直在變動的過程中)丢烘。

3.用戶行為數(shù)據(jù)如何收集

收集用戶行為數(shù)據(jù)的專業(yè)術(shù)語叫“埋點(diǎn)”,這個詞在工作過程中頻繁用到些椒,需要記住播瞳。

埋點(diǎn)是在網(wǎng)站/APP中針對特定用戶行為或事件進(jìn)行捕獲、處理和發(fā)送的相關(guān)技術(shù)及其實(shí)施過程免糕,技術(shù)實(shí)質(zhì)狐史,是監(jiān)聽軟件應(yīng)用運(yùn)行過程中的事件,當(dāng)需要關(guān)注的事件發(fā)生時進(jìn)行判斷和捕獲说墨。

收集用戶行為數(shù)據(jù)一般是由數(shù)據(jù)分析師骏全、數(shù)據(jù)產(chǎn)品經(jīng)理提出埋點(diǎn)需求或者規(guī)劃,由前端開發(fā)工程師/app開發(fā)工程師進(jìn)行實(shí)現(xiàn)尼斧。下圖就是蘑菇街網(wǎng)站的一個埋點(diǎn)數(shù)據(jù)姜贡。


image.png

4. 用戶行為重點(diǎn)名詞解釋

Cookie

在客戶端記錄用戶身份的信息,實(shí)際上是一小段文本棺棵,有效期一般是一年楼咳。在數(shù)據(jù)分析中主要有2個作用熄捍,一個是在cookie中添加一些統(tǒng)計參數(shù)已滿足特殊業(yè)務(wù)場景需求,另外一個就是識別用戶身份(在用戶沒有登錄的情況下母怜,都是通過Cookie中的唯一標(biāo)識來區(qū)分用戶余耽,統(tǒng)計訪客量)。

重要程度:五星

Cookie查看方式一般有2種:

1)谷歌瀏覽器=》鼠標(biāo)右鍵=》檢查=》Network=》刷新當(dāng)前頁面

2)通過Charles苹熏、Fiddler等專業(yè)抓包軟件

image.png

Session

在服務(wù)端記錄并確認(rèn)用戶身份碟贾,有效期一般較短,保存在服務(wù)器上轨域,在數(shù)據(jù)分析中一般用來跟蹤用戶來源袱耽,或者跟蹤訂單成交來源,還可以統(tǒng)計訪問次數(shù)(這個主要是在PC上統(tǒng)計)干发,app端一般不根據(jù)這個統(tǒng)計朱巨,目前統(tǒng)計訪問次數(shù)更多的是根據(jù)2次打開之間的時間間隔。

Url

統(tǒng)一資源定位符枉长,一個給定的獨(dú)特資源在Web上的地址冀续;五部分組成(協(xié)議/域名/路徑/端口/參數(shù));App中沒用url概念必峰,一般用路由或者模塊名替代洪唐,而且IOS和Android不同。

重要程度:五星

在數(shù)據(jù)分析中主要是用來頁面分析漏斗分析自点。來看一個案例:

案例:https://list.mogu.com/book/trousers/50020?acm=3.mce.1_10_1pq5m.128038.0.enS7ZscGeR3IT.pos_872-m_600121-sd_119&ptp=31.v5mL0b.0.0.9HgY4AVC
協(xié)議:https
域名:list.mogu.com
路徑:/book/trousers/50020
端口:80(默認(rèn)是80桐罕,不顯示)
參數(shù)1:acm=3.mce.1_10_1pq5m.128038.0.enS7ZscGeR3IT.pos_872-m_600121-sd_119
參數(shù)2:ptp=31.v5mL0b.0.0.9HgY4AVC

Refer

本質(zhì)就是一個Url脉让,是當(dāng)前頁面的引薦頁面(上一步頁面)桂敛,比如我從京東首頁點(diǎn)擊進(jìn)去了京東會員頁面,京東會員頁面的的refer就是首頁溅潜。在數(shù)據(jù)分析中主要是用來做路徑分析术唬、漏斗分析,像下圖的漏斗分析主要就是靠Url滚澜、Refer組合分析出來的粗仓。

重要程度:五星

image.png

抓包

將網(wǎng)絡(luò)傳輸發(fā)送與接收的數(shù)據(jù)包進(jìn)行截獲、重發(fā)设捐、編輯借浊、轉(zhuǎn)存等操作(數(shù)據(jù)分析是查看),常用抓包工具:Charles萝招、Fiddler蚂斤、谷歌瀏覽器右鍵檢查,在數(shù)據(jù)分析中主要是查看某個頁面的需要埋點(diǎn)參數(shù)是否有槐沼,或者驗(yàn)證開發(fā)工程師的埋點(diǎn)準(zhǔn)確性曙蒸,這點(diǎn)很重要捌治,一般情況下開發(fā)都說已經(jīng)完成埋點(diǎn)工作,但是沒有專門的測試同學(xué)對埋點(diǎn)進(jìn)行測試纽窟,準(zhǔn)確性有一定的誤差肖油。

重要程度:五星

常用抓包工具:Charles、Fiddler臂港、谷歌瀏覽器右鍵檢查森枪。

三.如何解決京東這個需求

一般流程如下圖,要注意一點(diǎn)就是在數(shù)據(jù)統(tǒng)計分析出來之后反饋給需求方趋艘,這個一般情況下來回多次溝通反饋才能達(dá)到預(yù)期的結(jié)果疲恢,一輪一般搞不定。


image.png
  • 跟需求方明確需求瓷胧,不要只是根據(jù)業(yè)務(wù)方的簡單文字需求就開工显拳,一定要當(dāng)面確認(rèn),很多情況下寫的比較簡單搓萧,業(yè)務(wù)方也沒想清楚
  • 體驗(yàn)業(yè)務(wù)流程杂数,這個非常重要,你要從用戶的角度來體驗(yàn)瘸洛,才有可能根據(jù)數(shù)據(jù)現(xiàn)象發(fā)現(xiàn)一些潛在問題
  • 頁面信息收集揍移,下面這些主要信息都要收集到
1、詳情頁Url:       
   https://plus.jd.com/index?flow_system=appicon&flow_entrance=appicon11&flow_channel=pc
   頁面路徑: https://plus.jd.com/index
2反肋、訂單頁Url:
   https://plus.jd.com/order/page
3那伐、詳情頁主要連接出口
   京東首頁: https://www.jd.com/
   我的京東: https://home.jd.com/
   權(quán)益介紹頁: https://plus.jd.com/right/index#item-coupon
4、這里PC端相對好收集石蔗,APP端比較難罕邀,需要抓包(內(nèi)部人員可以方便的獲取)

  • 查找數(shù)據(jù)源及數(shù)據(jù)字典
1养距、數(shù)據(jù)表名及數(shù)據(jù)字典(每個字段含義)
2诉探、各層級粒度匯總表(可以大幅提升分析效率)
3、數(shù)據(jù)量級及分區(qū)鍵
4棍厌、Url后面參數(shù)含義(細(xì)分業(yè)務(wù)可能需要用到)
5肾胯、內(nèi)部一般都會有元數(shù)據(jù)平臺的,直接跟老員工要相關(guān)信息耘纱,效率更高
  • 數(shù)據(jù)統(tǒng)計及分析敬肚,下面是幾段可能的sql統(tǒng)計,這種需求一般sql就能解決束析,不要python艳馒、java等代碼
#假設(shè)流量表名是dwd_pc_log
#到達(dá)詳情頁Top10來源
Select refer,count(*) pv
From dwd_pc_log
Where url=‘https://plus.jd.com/index’
Group by refer
Order by pv desc 
Limit 10

#從詳情頁出去的Top10頁面
Select url,count(*) pv
From dwd_pc_log
Where refer =‘https://plus.jd.com/index’
Group by refer
Order by pv desc 
Limit 10

#到付款頁面人數(shù)最高的前10頁面
select refer,count(*) uv
from (Select uid,refer from dwd_pc_log Where url=‘https://plus.jd.com/index’ Group by refer,uid) a
join( Select uid from dwd_pc_log Where url='https://plus.jd.com/order/page' Group by uid) b on a.uid=b.uid
group by refer
order by uv desc
 limit 10

  • 給需求方反饋結(jié)果,以下幾個注意點(diǎn)
1畸陡、在給業(yè)務(wù)方反饋時不能只給數(shù)據(jù)鹰溜,要有建議和觀點(diǎn)
2虽填、數(shù)據(jù)可讀性要強(qiáng),如果你告訴他某個url頁面跳出率最高曹动,是沒用的斋日,要說到頁面名稱
3、數(shù)據(jù)分析邏輯性要強(qiáng)墓陈,建議和觀點(diǎn)有理有據(jù)
4恶守、分析腳本、數(shù)據(jù)贡必、結(jié)論都要存檔兔港,后續(xù)復(fù)用概率非常高

四. 結(jié)束語

這篇文章主要目的是希望應(yīng)屆生或者想入互聯(lián)網(wǎng)行業(yè)的分析師對用戶行為分析有一個概念,然后根據(jù)這些概念再進(jìn)行深入自學(xué)仔拟,這篇文章確實(shí)比較難寫衫樊,看起來也有一定難度,個人覺得寫的也一般利花,主要還是因?yàn)楫?dāng)中涉及到了一些web技術(shù)和專業(yè)名詞科侈。希望對大家能夠有所幫助,估計也會有很多疑問炒事,希望各位看客可以留言討論臀栈。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市挠乳,隨后出現(xiàn)的幾起案子权薯,更是在濱河造成了極大的恐慌,老刑警劉巖睡扬,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件盟蚣,死亡現(xiàn)場離奇詭異,居然都是意外死亡威蕉,警方通過查閱死者的電腦和手機(jī)刁俭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進(jìn)店門橄仍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來韧涨,“玉大人,你說我怎么就攤上這事侮繁÷侵啵” “怎么了?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵宪哩,是天一觀的道長娩贷。 經(jīng)常有香客問我,道長锁孟,這世上最難降的妖魔是什么彬祖? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任茁瘦,我火速辦了婚禮,結(jié)果婚禮上储笑,老公的妹妹穿的比我還像新娘甜熔。我一直安慰自己,他們只是感情好突倍,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布腔稀。 她就那樣靜靜地躺著,像睡著了一般羽历。 火紅的嫁衣襯著肌膚如雪焊虏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天秕磷,我揣著相機(jī)與錄音诵闭,去河邊找鬼。 笑死澎嚣,一個胖子當(dāng)著我的面吹牛涂圆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播币叹,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼润歉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了颈抚?” 一聲冷哼從身側(cè)響起踩衩,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎贩汉,沒想到半個月后驱富,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡匹舞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年褐鸥,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赐稽。...
    茶點(diǎn)故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡叫榕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出姊舵,到底是詐尸還是另有隱情晰绎,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布括丁,位于F島的核電站荞下,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜尖昏,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一仰税、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧抽诉,春花似錦肖卧、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至巍沙,卻和暖如春葵姥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背句携。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工榔幸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人矮嫉。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓削咆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蠢笋。 傳聞我的和親對象是個殘疾皇子拨齐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評論 2 354