Hadoop離線數(shù)據(jù)分析平臺實戰(zhàn)——340瀏覽器PV分析
項目進度
模塊名稱 | 完成情況 |
---|---|
用戶基本信息分析(MR)? | 完成 |
瀏覽器信息分析(MR) | 未完成 |
地域信息分析(MR) | 未完成 |
外鏈信息分析(MR) | 未完成 |
用戶瀏覽深度分析(Hive) | 未完成 |
訂單分析(Hive) | 未完成 |
事件分析(Hive) | 未完成 |
模塊介紹
在瀏覽器信息分析模塊中除了用戶、會員和會話的分析外畜普,
還有pv的分析,pv的計算可以代表網(wǎng)站的流量值澡腾,
也能夠表示網(wǎng)站對用戶的吸引程度辐真,如果用戶平均pv比較高,
那么表示網(wǎng)站對用戶的引起程度比較高哄尔;如果是值比較低假消,
那么表示網(wǎng)站對用戶的吸引程度比較低。
這個時候岭接,就可以通過跳出率等其他統(tǒng)計指標來找出網(wǎng)站的問題所在富拗。
計算規(guī)則
pv的計算其實就是計算訪問url的次數(shù),
不涉及的去重鸣戴,也就是說一個用戶訪問一個url多少次就算多少pv值啃沪。
也就是說最終結(jié)果是一個pageview事件產(chǎn)生一個pv值,不涉及到任何去重操作窄锅。
最終數(shù)據(jù)保存:stats_device_browser谅阿。
涉及到的列(除了維度列和created列外):pv。
涉及到其他表有dimension_platform酬滤、dimension_date、dimension_browser寓涨。
編碼步驟
- MapReduce代碼編寫
- collector和xml配置等
- 測試
擴展:在計算pv值后盯串,可以計算跳出率以及各個頁面的情況,
可以將頁面分為三大類戒良,進入頁面体捏、正常瀏覽頁面以及退出頁面(按照會話來分析)。
在一個會話中糯崎,pageview事件中referrer url是其他網(wǎng)站的訪問就是進入頁面的訪問
几缭,referrer url是本網(wǎng)站的表示是一個正常的瀏覽頁面,
會話中的最后一個訪問頁面是退出頁面以及進入頁面的上一個pageview事件(同一個會話)中的頁面算做退出頁面沃呢。