參考:https://www.kuxiao.cn/course/pc-course-learning.html?cid=C59ad06e9a17eb456c650e896
一泰偿、商業(yè)理解
1署海、網(wǎng)絡(luò)數(shù)據(jù)分析的數(shù)據(jù)來源:Server保存的網(wǎng)絡(luò)日志
2聂宾、網(wǎng)絡(luò)數(shù)據(jù)分析的分類
- 網(wǎng)站級別
? 對網(wǎng)站級別的數(shù)據(jù)挖掘,通常會將網(wǎng)站作為一個整體進行分析拇泣,主要任務(wù)包括:
– 訪問網(wǎng)站的用戶識別奖磁;
– 網(wǎng)站購買情況分析;
– 網(wǎng)站銷售金額分析阳液;
– 網(wǎng)站訪問的錯誤情況分析怕敬。
? 通常情況下,只需要根據(jù)網(wǎng)絡(luò)日志就可以進行網(wǎng)站級別的數(shù)據(jù)分析工作帘皿。 - 頁面級別
? 對于頁面級別的數(shù)據(jù)挖掘东跪,還要關(guān)注各個頁面的訪問情況,主要回答如下問題:
– 哪些網(wǎng)頁訪問量最大鹰溜;
– 訪問者進入哪個網(wǎng)頁虽填;
– 訪問者退出哪個網(wǎng)頁。
? 同樣曹动,只需要根據(jù)網(wǎng)絡(luò)日志就可以進行網(wǎng)頁級別的數(shù)據(jù)分析工作斋日。 - 訪問級別
? 從訪問事件的角度進行數(shù)據(jù)分析工作,主要回答如下問題:
– 網(wǎng)站訪問的逗留時間如何墓陈;
– 哪些網(wǎng)站\網(wǎng)頁會在一次訪問中被依次訪問 恶守,訪問的次序如何;
– 哪些網(wǎng)站\網(wǎng)頁的訪問容易最終導(dǎo)致購買行為發(fā)生跛蛋。
? 主要依賴于網(wǎng)絡(luò)日志數(shù)據(jù)熬的,結(jié)合Cookie數(shù)據(jù)效果會更好。 - 訪問者級別
? 訪問者級別與訪問級別的網(wǎng)絡(luò)數(shù)據(jù)分析問題類似赊级,但它們針對的對象不同押框。主要任務(wù)包括:
– 特定訪問者的網(wǎng)站訪問情況;
– 識別不同的訪問是否由同一個訪問者發(fā)起理逊;
– 對訪問者不同時間的訪問行為做進一步的分析與挖掘橡伞。
? 除了需要網(wǎng)絡(luò)日志數(shù)據(jù)和Cookie數(shù)據(jù)外,通常還需要網(wǎng)站注冊信息等數(shù)據(jù)晋被。
二兑徘、數(shù)據(jù)理解
三、數(shù)據(jù)準備
- 識別訪問用戶
根據(jù)日志識別不同的訪問(Visit)及訪問者(Visitor)羡洛,基本假設(shè):
? 同一訪問(Visit)
– IP地址(IPAddress)相同
– 瀏覽器(UserAgent)相同
– 并且操作間隔不超過30分鐘(1800秒)
? 同一訪問者(Visitor)
– Cookie相同 - 提取用戶訪問習(xí)慣數(shù)據(jù)
日志信息經(jīng)過整理提取出用戶訪問習(xí)慣數(shù)據(jù)
用戶訪問習(xí)慣數(shù)據(jù)包括:
1.用戶名(username)和訂單信息(order_no)
2.訪問時間(visit_time)和每頁停留時間(time_per_page)
3.訪問第1頁到第2頁之間(time_gap1)和第2頁到第3頁之間(time_gap2)的時間間隔
4.頂級目錄信息(first_dir)
5.訪問來源信息(Referer) - 合并網(wǎng)絡(luò)日志與相關(guān)數(shù)據(jù)
四挂脑、建立模型
4.1 訪問用戶購買行為預(yù)測 ——訪問級別數(shù)據(jù)分析
4.2 訪問者訪問網(wǎng)頁細分模型 ——訪問者級別數(shù)據(jù)分析
4.3 已購買產(chǎn)品特征模型
4.4?用聚類分析建立推薦模型
五、 模型應(yīng)用
使用聚類分析結(jié)果向用戶推薦產(chǎn)品