數(shù)據(jù)預(yù)處理之——騰訊廣告算法大賽

```

#首先了解如何快速做一個(gè)列表

df4 = pd.DataFrame({'col1':['1',3],'col2':[2,4]},index=['a','b'])

#接下來(lái)我們來(lái)看如何處理臟數(shù)據(jù)

import pandas as pd

import numpy as np

df=pd.DataFrame({"id":["1","2","3,4"]})

df

def max_str(t):

? ? a=[int(i) for i in t]

? ? return max(a)

df["id_max"]=df["id"].str.split(",").map(max_str)

df

#騰訊廣告算法大賽為例子

##################################制作小樣本集##############################

###########################################################################

#第一步 讀取數(shù)據(jù)

df=pd.read_table('C:/Users/fafa/Desktop/testA/user_data',sep = '\t',header=None,engine='python')

#增加 列名

df.columns=['用戶ID','年齡','性別','地域','婚戀狀態(tài)','學(xué)歷','消費(fèi)能力','設(shè)備','工作狀態(tài)','連接類型','行為性趣']

#切分?jǐn)?shù)據(jù)毫炉,使用前2000條

df2=df.head(2000)

#導(dǎo)出切分好的數(shù)據(jù)

df2.to_excel('C:/Users/fafa/Desktop/testa/user_data.xls')

##################同理讲坎,制作 其余的小樣本集##########

test=pd.read_table('C:/Users/fafa/Desktop/testA/test_sample.dat',sep = '\t',header=None,engine='python')

test.columns=['樣本id','廣告id','創(chuàng)建時(shí)間','素材尺寸','廣告行業(yè)id','商品類型','商品id','廣告賬戶id','投放時(shí)段','人群定向','出價(jià)(單位分)']

test.to_excel('C:/Users/fafa/Desktop/testa/測(cè)試數(shù)據(jù).xls')

test=pd.read_table('C:/Users/fafa/Desktop/testA/ad_operation.dat',sep = '\t',header=None,engine='python')

test.columns=['廣告id','創(chuàng)建/修改時(shí)間','操作類型','修改字段','操作后的字段']

df3=test.head(2000)

df3.to_excel('C:/Users/fafa/Desktop/testa/廣告操作數(shù)據(jù).xls')

df4=pd.read_table('C:/Users/fafa/Desktop/testA/ad_static_feature.out',sep = '\t',header=None,engine='python')

df4.columns=['廣告id','創(chuàng)建時(shí)間','廣告賬戶id','商品id','商品類型','廣告行業(yè)id','素材尺寸']

df5=df4.head(2000)

df5.to_excel('C:/Users/fafa/Desktop/testa/廣告靜態(tài)數(shù)據(jù).xls')

df=pd.read_table('C:/Users/fafa/Desktop/testA/想',sep = '\t',header=None,engine='python')

df.columns=['廣告請(qǐng)求id','廣告請(qǐng)求時(shí)間','廣告位id','用戶id','曝光廣告id','曝光廣告素材尺寸','曝光廣告出價(jià)bid','曝光廣告pctr','曝光廣告quality_ecpm','曝光廣告totalEcpm']

df=df.head(2000)

df.to_excel('C:/Users/fafa/Desktop/廣告曝光日志.xls')

###################################################

###################################################

##########統(tǒng)計(jì)日志中廣告id的出現(xiàn)次數(shù),并關(guān)聯(lián)其信息##########

###################################################

###################################################

#讀取曝光日志

df=pd.read_excel('D:/mini數(shù)據(jù)集/曝光日志.xls',header=0)

#對(duì)"姓名" 計(jì)數(shù),得到 “姓名”和“計(jì)數(shù)”兩列。

df.姓名.value_counts().to_frame().reset_index().rename({"index":"姓名","姓名":"計(jì)數(shù)"},axis=1)

#對(duì)"曝光廣告id" 計(jì)數(shù),得到 “廣告id”和“曝光次數(shù)”兩列。

df1=df.曝光廣告id.value_counts().to_frame().reset_index().rename({"index":"廣告id","曝光廣告id":"曝光次數(shù)"},axis=1)df1.head()

#法二

# df['count'] = 1

#df.groupby('Name')['count'].agg('sum')

#關(guān)聯(lián)廣告其他屬性 到 曝光次數(shù) 表格

#讀取廣告其他屬性df2

df2=pd.read_excel('D:/mini數(shù)據(jù)集/廣告靜態(tài)數(shù)據(jù).xls',header=0)df2.head()

#關(guān)聯(lián)

df1.merge(df2,on="廣告id")

#刪除不需要的列

df4=df3.drop({'創(chuàng)建時(shí)間',"廣告賬戶id"},1)df4.head()

#修改列的位置

df=df[['廣告id', '商品id', '商品類型', '廣告行業(yè)id', '素材尺寸','曝光次數(shù)']]

#################################################

###########以下是直接調(diào)取大形數(shù)據(jù)制作訓(xùn)練集#########

#################################################

#第一步 讀取數(shù)據(jù)df1=pd.read_table('C:/Users/fafa/Desktop/testA/totalExposureLog.out',sep = '\t',header=None,engine='python')df2=pd.read_table('C:/Users/fafa/Desktop/testA/ad_static_feature.out',sep = '\t',header=None,engine='python')

#增加 列名

df1.columns=['廣告請(qǐng)求id','廣告請(qǐng)求時(shí)間','廣告位id','用戶id','曝光廣告id','曝光廣告素材尺寸','曝光廣告出價(jià)bid','曝光廣告pctr','曝光廣告quality_ecpm','曝光廣告totalEcpm']df2.columns=['廣告id','創(chuàng)建時(shí)間','廣告賬戶id','商品id','商品類型','廣告行業(yè)id','素材尺寸']#對(duì)"曝光廣告id" 計(jì)數(shù),得到 “廣告id”和“曝光次數(shù)”兩列雳锋。

df3=df1.曝光廣告id.value_counts().to_frame().reset_index().rename({"index":"廣告id","曝光廣告id":"曝光次數(shù)"},axis=1) df1.head()

#關(guān)聯(lián)廣告其他屬性 到 曝光次數(shù) 表格

df3.merge(df2,on="廣告id")

#刪除不需要的列

df4=df3.drop({'創(chuàng)建時(shí)間',"廣告賬戶id"},1) df4.head()

#修改列的位置

df5=df4[['廣告id', '商品id', '商品類型', '廣告行業(yè)id', '素材尺寸','曝光次數(shù)']]

#發(fā)現(xiàn)id中存在臟數(shù)據(jù) 所以清理一下(方法見(jiàn)臟數(shù)據(jù)的清理)

def max_str(t):

? ? a=[int(i) for i in t]

? ? return max(a)

df5["廣告id"]=df5["廣告id"].str.split(",").map(max_str)

df5["商品id"]=df5["商品id"].str.split(",").map(max_str)

df5["廣告行業(yè)id"]=df5["廣告行業(yè)id"].str.split(",").map(max_str)

#令空值NaN為0

df5.fillna(0)

df5.head()

###最終得到的df5就是一個(gè)數(shù)據(jù)集合,最后一列是Y羡洁,其余列都是特征X(要注意這里df5是有列名的)魄缚。然后套用nn模板(或者Light gbm 代碼在此)來(lái)訓(xùn)練即可。

####nn模板如下####

# -*- coding: utf-8 -*-

import pandas as pd

import numpy as np

from keras import metrics

from keras.models import Sequential

from keras.layers import Dense

from keras.wrappers.scikit_learn import KerasClassifier

from sklearn.model_selection import KFold, cross_val_scoredataset=pd.read_csv('housing.csv',header=None)

X=dataset.iloc[:,0:13]

Y=dataset.iloc[:,13]

# print(Y)

seed=7

np.random.seed(seed)

# 建立模型

optimizer='adam'

init='normal'

model=Sequential()

model.add(Dense(units=13,activation='relu',input_dim=13,kernel_initializer=init))

#構(gòu)建更多的隱藏層

model.add(Dense(units=10,activation='relu',kernel_initializer=init))

model.add(Dense(units=1,kernel_initializer=init))

#輸出層不需要進(jìn)行激活函數(shù),預(yù)測(cè)回歸的話unit=1# 編譯模型

model.compile(loss='mse',optimizer=optimizer,metrics=['acc'])

model.fit(X.values,Y.values,epochs=30,batch_size=64)

```

數(shù)據(jù)分析基本過(guò)程

XGBOOST模型訓(xùn)練數(shù)據(jù)集


If you are interested in this topic.
You can get in touch with me.
18234056952(Tel? wechat? qq)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末焚廊,一起剝皮案震驚了整個(gè)濱河市冶匹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌咆瘟,老刑警劉巖嚼隘,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異袒餐,居然都是意外死亡飞蛹,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門灸眼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)卧檐,“玉大人,你說(shuō)我怎么就攤上這事焰宣∶骨簦” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵匕积,是天一觀的道長(zhǎng)盈罐。 經(jīng)常有香客問(wèn)我榜跌,道長(zhǎng),這世上最難降的妖魔是什么盅粪? 我笑而不...
    開(kāi)封第一講書人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任钓葫,我火速辦了婚禮,結(jié)果婚禮上票顾,老公的妹妹穿的比我還像新娘础浮。我一直安慰自己,他們只是感情好奠骄,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布霸旗。 她就那樣靜靜地躺著,像睡著了一般戚揭。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上撵枢,一...
    開(kāi)封第一講書人閱讀 49,079評(píng)論 1 285
  • 那天民晒,我揣著相機(jī)與錄音,去河邊找鬼锄禽。 笑死潜必,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的沃但。 我是一名探鬼主播磁滚,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼宵晚!你這毒婦竟也來(lái)了垂攘?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤淤刃,失蹤者是張志新(化名)和其女友劉穎晒他,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體逸贾,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡陨仅,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了铝侵。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片灼伤。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖咪鲜,靈堂內(nèi)的尸體忽然破棺而出狐赡,到底是詐尸還是另有隱情,我是刑警寧澤疟丙,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布猾警,位于F島的核電站孔祸,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏发皿。R本人自食惡果不足惜崔慧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望穴墅。 院中可真熱鬧惶室,春花似錦、人聲如沸玄货。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)松捉。三九已至夹界,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間隘世,已是汗流浹背可柿。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丙者,地道東北人复斥。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像械媒,于是被迫代替她去往敵國(guó)和親目锭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容