首先帮坚,統(tǒng)計頁面停留時間
然后,將頁面停留時間 做回歸或者分類(目前稍浆,使用分類模型)
注:頁面停留時間是連續(xù)值载碌,但可以中位數,進行二值化衅枫。以A用戶為例嫁艇,訪問5個頁面頁面停留時間分別為1、2弦撩、3步咪、4、5益楼,那么用中位數3進行歧斟,可以二值化為0,0偏形,1,1觉鼻,1俊扭,進而作為邏輯回歸模型的二分類label。
擴展:也可以用softmax做多分類坠陈;或者用回歸模型萨惑。
1.統(tǒng)計頁面停留時間
核心計算方法:
- 過濾二手房類目的日志
- 由于app日志中沒有session捐康,需要為日志添加session
session計算方法:- 同一個用戶一個新的啟動行為算作一個session開始,
2.同一用戶超過5分鐘沒有行為算作一個session開始
- 同一個用戶一個新的啟動行為算作一個session開始,
- 在相同session內庸蔼,將用戶行為序列中滿足連續(xù)三種事件流漏斗的數據找出來解总。
事件漏斗分別是: 1.列表頁上發(fā)生詳情頁點擊(list item)-> 2. 詳情頁 ->3.離開詳情頁(非detail事件) - 提取用戶該行為序列中imei,帖子id姐仅,gtid花枫, timestamp,然后利用事件3時間-事件1時間 計算停留時間
輸出:
Paste_Image.png
提取字段:
以imei作為用戶id: 000**********d5689dbcc36
以params中參數作為 docid
以qid /gtid 做唯一單詞搜索的唯一標記
以list item的時間 timestamp 1476572224134 為 詳情頁進入時間
注:日志比較混亂掏膏,還處在6年前的淘寶的日志階段——不過劳翰,還好,后來者有經驗可借鑒馒疹,正在全速整理中佳簸。
從數據完整性、準確性統(tǒng)計:
- 后端的click 日志與 用戶行為日志颖变,匹配發(fā)現生均,用戶行為日志有缺失,缺失率為11% 左右
- 用戶最后一個頁面的腥刹,頁面停留時間 無法統(tǒng)計
核心:詳情頁退出的時間方式马胧;App端session切割方式
方案:
App端session切割方式:以5分鐘為界
詳情頁退出的時間方式:由于無法窮舉所有非詳情頁的tag( list item為tag),所以肛走,分析日志漓雅,以 非detail 開頭的tag為準,作為詳情頁結束時間朽色,此方式可能不準確邻吞。