時間:2018.01.21.一周
主要內容
1.整理前期關于決策樹的一個小型實踐項目文檔(實踐進行中)
2.搭建TensorFlow環(huán)境(進行中)
3.拓展:實踐Python的自動化模塊pyautogui模塊
4.后期承得前會長吳師兄的參考文檔,開始對騰訊算法大賽進行項目研究
內容摘要及相關概況
決策樹實踐項目
詳見項目文檔
搭建TensorFlow環(huán)境
1.通過pip安裝TensorFlow基本包
2.在cmd處import tensorflow
3.根據提示狮惜,在官網下載對應的CUDA版本缅叠,下載完成后進行安裝(安裝之前先卸載本地的舊版本)
4.下載cuDNN對應的壓縮包
pyautogui模塊
本周實踐了一系列pyautogui模塊的函數柔袁,這里主要摘要一個實踐:
功能
實時給出鼠標當前位置的x鞠绰、y坐標厢洞,也給出這個像素的RGB顏色
代碼
騰訊算法大賽
參考于前會長吳師兄的文檔
本周進度
由賽題屬于廣告學范疇绳锅,一開始通過對?轉化率預估此篇文章的閱讀西饵,對相關概念有所理解
隨后,閱讀理解了?騰訊算法大賽以及 FAQ 部分
賽題要求
官方提供17-30天移動 APP 的廣告鳞芙、用戶的轉化情況眷柔,及相關上下文, 根據這些數據預測第31天指定用戶和對應廣告的轉化率.
評估方式 (賽題中提供的計算公式)
通過Logarithmic Loss評估(越小越好),公式如下:
其中原朝,
N是測試樣本總數驯嘱,
yi是二值變量,取值0或1喳坠,表示第i個樣本的label鞠评,
pi為模型預測第i個樣本 label為1的概率。
示例代碼(Python語言實現):
項目目的
主要在于剖析和學習大賽中取得 第64 名大牛的分享壕鹉, 對其代碼進行理解和分析剃幌, 主要著重點在于特征工程。
機器學習的主要流程
數據分析和清洗方法
關于數據分析御板,閱讀FAQ可知:
App 的激活定義為用戶下載后啟動了該App锥忿,即發(fā)生激活行為。從用戶點擊廣告到廣告系統(tǒng)得知用戶激活了App(如果有)怠肋,通常會有較長的時間間隔敬鬓,主要由以下兩方面原因導致:
1) 用戶可能在下載之后過了很久才啟動App;
2) 用戶啟動App的行為需要廣告主上報回傳給廣告系統(tǒng)笙各,通常會有一定的延時钉答。
這里回流時間表示了廣告主把App激活數據上報給廣告系統(tǒng)的時間,回流時間超過5天的數據會被系統(tǒng)忽略杈抢。
值得注意的是数尿,本次競賽的訓練數據提供的截止第31天0點的廣告日志,因此惶楼,對于最后幾天的訓練數據右蹦,某些label=0并不夠準確,可能廣告系統(tǒng)會在第31天之后得知label實際上為1歼捐。
即
某些app和用戶的記錄比較少
最后幾天有部分數據不準確
對于這個問題, 這里采用了比較暴力的方法, 將最后幾天這些可能會出現問題的數據刪除