2017京東登錄識(shí)別-R代碼

2017京東登錄識(shí)別-R代碼

GitHub:https://github.com/hallo128/Compete/tree/master/jd_game

(注:簡(jiǎn)書的排版不太友好,很多內(nèi)容沒(méi)有顯示出來(lái)晨炕,而我也不準(zhǔn)備死磕來(lái)調(diào)格式衫画。如果對(duì)代碼或者更細(xì)致的內(nèi)容感興趣的,可以前往上面的GitHub下載這篇完整的PDF瓮栗,當(dāng)然了里面也會(huì)有數(shù)據(jù)和代碼削罩,也可以練練手)

處理數(shù)據(jù)前:先用SPSS和Excel進(jìn)行數(shù)據(jù)的查看(排序瞄勾、描述統(tǒng)計(jì)、類別數(shù)弥激、比例进陡、異常等)

1、代碼實(shí)現(xiàn)功能介紹

R實(shí)現(xiàn)部分微服,我將主要解釋說(shuō)明趾疚,特征構(gòu)建和結(jié)果導(dǎo)出部分;模型構(gòu)建的話以蕴,不限于R語(yǔ)言做出的結(jié)果盗蟆。

構(gòu)建特征表【時(shí)間類型轉(zhuǎn)換、分組統(tǒng)計(jì)特征舒裤、數(shù)據(jù)集合并】-訓(xùn)練集喳资、測(cè)試集

輸入:賽題給定數(shù)據(jù).csv

輸出:可用于建模的特征表.csv

模型構(gòu)建【平衡樣本、分訓(xùn)練集和驗(yàn)證集腾供、模型(選參數(shù)仆邓、預(yù)測(cè)結(jié)果)】

輸入:用于建模的特征表.csv

輸出:測(cè)試集的預(yù)測(cè)數(shù)據(jù).csv

結(jié)果導(dǎo)出【數(shù)據(jù)匹配、按指定格式導(dǎo)出】

輸入:測(cè)試集的預(yù)測(cè)數(shù)據(jù).csv(適用于不同軟件做出的結(jié)果)

輸出:可用于提交的數(shù)據(jù).csv

2伴鳖、構(gòu)建特征表

1)代碼文件:

由于構(gòu)建特征的時(shí)候节值,我們有過(guò)很多思路,按天榜聂、按1/4天搞疗、按ip,但都是基于一開(kāi)始的文件演變的须肆。

而且最后結(jié)果顯示第一個(gè)文件的特征說(shuō)明也比較好匿乃,所以我只特別介紹一個(gè)文件。

文件2:“構(gòu)建特征6個(gè)小時(shí)-訓(xùn)練集.R”豌汇、“構(gòu)建特征6個(gè)小時(shí)-測(cè)試集.R”?

特別地幢炸,登錄數(shù)據(jù)“按id,按1/4天”進(jìn)行切分

文件3:“構(gòu)建特征6個(gè)小時(shí)-訓(xùn)練集+ip.R”拒贱、“構(gòu)建特征6個(gè)小時(shí)-測(cè)試集+ip.R”

特別地宛徊,在文件2的基礎(chǔ)上,添加了ip數(shù)據(jù)的信息

R編程方法介紹【時(shí)間類型轉(zhuǎn)換逻澳、分組統(tǒng)計(jì)特征闸天、數(shù)據(jù)集合并】

1、時(shí)間類型轉(zhuǎn)換

時(shí)間類型轉(zhuǎn)換【字符串-時(shí)間戳-取時(shí)間】

R語(yǔ)言中可以方便實(shí)現(xiàn)這3個(gè)內(nèi)容的相互轉(zhuǎn)換

1)為什么需要轉(zhuǎn)換?

實(shí)際記錄需要:

很多比賽都會(huì)給出時(shí)間戳或時(shí)刻點(diǎn)斜做,這個(gè)指標(biāo)存在的原因:一方面苞氮,是由于系統(tǒng)在記錄用戶行為的時(shí)候,肯定會(huì)記錄下用戶是什么時(shí)刻發(fā)生了這樣的行為陨享;另一方面葱淳,很多時(shí)候我們考慮和觀測(cè)到的都是一個(gè)隨著時(shí)間變化的行為,正因?yàn)橛辛藭r(shí)間的記錄和排序抛姑,從而讓我們有可能隨著時(shí)間來(lái)得到有用的信息赞厕。

建模構(gòu)建特征需要:

首先,時(shí)間戳有利于你將數(shù)據(jù)按時(shí)間排序定硝。

其次皿桑,時(shí)間戳便于你提取時(shí)間特征(年、月蔬啡、日诲侮、小時(shí)、分鐘箱蟆、周)

最后沟绪,時(shí)間戳便于計(jì)算時(shí)間差(只需要2個(gè)時(shí)間戳相減)和平均時(shí)刻

(2)R語(yǔ)言如何實(shí)現(xiàn)

R語(yǔ)言中重點(diǎn)介紹2個(gè)函數(shù):as.POSIXct()和strptime(),下面是這2個(gè)函數(shù)的具體使用方法

2空猜、分組統(tǒng)計(jì)特征

這個(gè)內(nèi)容對(duì)于經(jīng)常使用數(shù)據(jù)庫(kù)绽慈,寫SQL語(yǔ)言的同學(xué),應(yīng)該不陌生辈毯。寫R代碼時(shí)坝疼,查到過(guò)好幾包,目前我選擇了dplyr谆沃。接下來(lái)我將說(shuō)明它的具體用法钝凶。?

(1)步驟:

先把需要分組的關(guān)鍵字轉(zhuǎn)換為“因子型”

group_by()——數(shù)據(jù)沒(méi)有變化,為第三步做準(zhǔn)備

對(duì)第二步的數(shù)據(jù)集調(diào)用summarise()唁影,可以進(jìn)行的統(tǒng)計(jì)指標(biāo)耕陷,如右圖所示【缺點(diǎn):只能調(diào)用右圖的函數(shù)】

(2)例子?

(3)特別地,結(jié)合dplyr::filter()使用据沈,可以按條件進(jìn)行分組統(tǒng)計(jì)

3啃炸、數(shù)據(jù)集合并及相關(guān)數(shù)據(jù)處理方法

合并數(shù)據(jù)集——merge()

過(guò)濾數(shù)據(jù)集——subset()與dplyr::filter()

檢查數(shù)據(jù)完整性并填充——complete.cases()、na.omit()卓舵、is.na()

多指標(biāo)排序——order()

縱向合并數(shù)據(jù)——cbind()

對(duì)某列數(shù)據(jù)進(jìn)行切分——splitstackshape::cSplit()

導(dǎo)出數(shù)據(jù)——write.csv()?

4南用、結(jié)果導(dǎo)出

為了使測(cè)試集的預(yù)測(cè)數(shù)據(jù)與用于提交的數(shù)據(jù)進(jìn)行匹配,按照我們構(gòu)建特征的思路掏湾。就是“按id裹虫,按小時(shí)”進(jìn)行匹配,即可融击。

對(duì)導(dǎo)出數(shù)據(jù)的格式進(jìn)行查看(通過(guò)notepad++或者任何編輯器)筑公。

需要注意的是,R語(yǔ)言中導(dǎo)出的數(shù)值很有可能是字符型尊浪,那么可以通過(guò)如下公式進(jìn)行轉(zhuǎn)換匣屡。

kk$y <- as.numeric(as.character(kk$y))


t1 = 1428641659? ? ? ? ? ? ? ? #時(shí)間戳(數(shù)值)

time1 = '2015-04-10 12:54:19'? #時(shí)刻(字符串)?

#----------------時(shí)間轉(zhuǎn)換

#----法一:as.POSIXct()

#用法:輸入-時(shí)間戳/字符串封救,先轉(zhuǎn)換為日期型;再按需要捣作,轉(zhuǎn)換為字符串/時(shí)間戳

#用法1:將時(shí)間戳轉(zhuǎn)換字符串

l0 = as.POSIXct(t1, origin="1970-01-01 00:00:00")? ? #將時(shí)間戳轉(zhuǎn)換為日期型

lc = as.character(l0)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #將日期型轉(zhuǎn)換為字符串

#用法2:將字符串轉(zhuǎn)換時(shí)間戳

l1 = as.POSIXct(time1, origin="1970-01-01 00:00:00")? #將字符串轉(zhuǎn)換為日期型

l2 = as.numeric(l1)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #將日期型轉(zhuǎn)換為時(shí)間戳

l3 = as.numeric(as.POSIXct(time1, origin="1970-01-01 00:00:00"))? #將字符串轉(zhuǎn)換為時(shí)間戳(最常用)

#----法二:strptime()

#特別地:輸入-只能為字符串

l4 = as.numeric(strptime(time1,"%Y-%m-%d %H:%M:%S"))? #將字符串轉(zhuǎn)換為時(shí)間戳(用法類似)

#特點(diǎn):任意取出時(shí)間點(diǎn)

hour = strftime(time1, format = "%m-%d %H")

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末誉结,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子券躁,更是在濱河造成了極大的恐慌惩坑,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件也拜,死亡現(xiàn)場(chǎng)離奇詭異以舒,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)慢哈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門蔓钟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人卵贱,你說(shuō)我怎么就攤上這事奋刽。” “怎么了艰赞?”我有些...
    開(kāi)封第一講書人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵佣谐,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我方妖,道長(zhǎng)狭魂,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任党觅,我火速辦了婚禮雌澄,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘杯瞻。我一直安慰自己镐牺,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布魁莉。 她就那樣靜靜地躺著睬涧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪旗唁。 梳的紋絲不亂的頭發(fā)上畦浓,一...
    開(kāi)封第一講書人閱讀 51,462評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音检疫,去河邊找鬼讶请。 笑死,一個(gè)胖子當(dāng)著我的面吹牛屎媳,可吹牛的內(nèi)容都是我干的夺溢。 我是一名探鬼主播论巍,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼风响!你這毒婦竟也來(lái)了嘉汰?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤钞诡,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后湃崩,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體荧降,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年攒读,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了朵诫。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡薄扁,死狀恐怖剪返,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情邓梅,我是刑警寧澤脱盲,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站日缨,受9級(jí)特大地震影響钱反,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜匣距,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一面哥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧毅待,春花似錦尚卫、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至外里,卻和暖如春邑飒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背级乐。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工疙咸, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人风科。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓撒轮,卻偏偏與公主長(zhǎng)得像乞旦,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子题山,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理兰粉,服務(wù)發(fā)現(xiàn),斷路器顶瞳,智...
    卡卡羅2017閱讀 134,656評(píng)論 18 139
  • Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
    Joyyx閱讀 8,328評(píng)論 0 16
  • 首頁(yè) 資訊 文章 資源 小組 相親 登錄 注冊(cè) 首頁(yè) 最新文章 IT 職場(chǎng) 前端 后端 移動(dòng)端 數(shù)據(jù)庫(kù) 運(yùn)維 其他...
    Helen_Cat閱讀 3,874評(píng)論 1 10
  • 我對(duì)洲際集團(tuán)一直有看法慨菱,最主要的原因就是高級(jí)會(huì)員早餐和行政待遇條款不明確焰络。所以除非沒(méi)有選擇,我不會(huì)首選 IHG符喝。 ...
    38ef137daa91閱讀 1,726評(píng)論 0 48
  • 不管前方的路有多苦闪彼,只要走的方向正確,不管多么崎嶇不平协饲,都比站在原地更接近幸福畏腕。——宮崎駿千與千尋
    Timothy_LDR閱讀 230評(píng)論 0 0