數(shù)據(jù)預(yù)處理之——騰訊廣告算法大賽

```

#首先了解如何快速做一個(gè)列表

df4 = pd.DataFrame({'col1':['1',3],'col2':[2,4]},index=['a','b'])

#接下來(lái)我們來(lái)看如何處理臟數(shù)據(jù)

import pandas as pd

import numpy as np

df=pd.DataFrame({"id":["1","2","3,4"]})

def max_str(t):

? ? a=[int(i) for i in t]

? ? return max(a)

df["id_max"]=df["id"].str.split(",").map(max_str)

#騰訊廣告算法大賽為例子

##################################制作小樣本集##############################

###########################################################################

#第一步讀取數(shù)據(jù)

df=pd.read_table('C:/Users/fafa/Desktop/testA/user_data',sep = '\t',header=None,engine='python')

#增加列名

df.columns=['用戶ID','年齡','性別','地域','婚戀狀態(tài)','學(xué)歷','消費(fèi)能力','設(shè)備','工作狀態(tài)','連接類型','行為性趣']

#切分?jǐn)?shù)據(jù)毫炉，使用前2000條

df2=df.head(2000)

#導(dǎo)出切分好的數(shù)據(jù)

df2.to_excel('C:/Users/fafa/Desktop/testa/user_data.xls')

##################同理讲坎，制作其余的小樣本集##########

test=pd.read_table('C:/Users/fafa/Desktop/testA/test_sample.dat',sep = '\t',header=None,engine='python')

test.columns=['樣本id','廣告id','創(chuàng)建時(shí)間','素材尺寸','廣告行業(yè)id','商品類型','商品id','廣告賬戶id','投放時(shí)段','人群定向','出價(jià)(單位分)']

test.to_excel('C:/Users/fafa/Desktop/testa/測(cè)試數(shù)據(jù).xls')

test=pd.read_table('C:/Users/fafa/Desktop/testA/ad_operation.dat',sep = '\t',header=None,engine='python')

test.columns=['廣告id','創(chuàng)建/修改時(shí)間','操作類型','修改字段','操作后的字段']

df3=test.head(2000)

df3.to_excel('C:/Users/fafa/Desktop/testa/廣告操作數(shù)據(jù).xls')

df4=pd.read_table('C:/Users/fafa/Desktop/testA/ad_static_feature.out',sep = '\t',header=None,engine='python')

df4.columns=['廣告id','創(chuàng)建時(shí)間','廣告賬戶id','商品id','商品類型','廣告行業(yè)id','素材尺寸']

df5=df4.head(2000)

df5.to_excel('C:/Users/fafa/Desktop/testa/廣告靜態(tài)數(shù)據(jù).xls')

df=pd.read_table('C:/Users/fafa/Desktop/testA/想',sep = '\t',header=None,engine='python')

df.columns=['廣告請(qǐng)求id','廣告請(qǐng)求時(shí)間','廣告位id','用戶id','曝光廣告id','曝光廣告素材尺寸','曝光廣告出價(jià)bid','曝光廣告pctr','曝光廣告quality_ecpm','曝光廣告totalEcpm']

df=df.head(2000)

df.to_excel('C:/Users/fafa/Desktop/廣告曝光日志.xls')

###################################################

##########統(tǒng)計(jì)日志中廣告id的出現(xiàn)次數(shù)，并關(guān)聯(lián)其信息##########

###################################################

#讀取曝光日志

df=pd.read_excel('D:/mini數(shù)據(jù)集/曝光日志.xls',header=0)

#對(duì)"姓名" 計(jì)數(shù)，得到 “姓名”和“計(jì)數(shù)”兩列。

df.姓名.value_counts().to_frame().reset_index().rename({"index":"姓名","姓名":"計(jì)數(shù)"},axis=1)

#對(duì)"曝光廣告id" 計(jì)數(shù)，得到 “廣告id”和“曝光次數(shù)”兩列。

df1=df.曝光廣告id.value_counts().to_frame().reset_index().rename({"index":"廣告id","曝光廣告id":"曝光次數(shù)"},axis=1)df1.head()

#法二

# df['count'] = 1

#df.groupby('Name')['count'].agg('sum')

#關(guān)聯(lián)廣告其他屬性到曝光次數(shù) 表格

#讀取廣告其他屬性df2

df2=pd.read_excel('D:/mini數(shù)據(jù)集/廣告靜態(tài)數(shù)據(jù).xls',header=0)df2.head()

#關(guān)聯(lián)

df1.merge(df2,on="廣告id")

#刪除不需要的列

df4=df3.drop({'創(chuàng)建時(shí)間',"廣告賬戶id"},1)df4.head()

#修改列的位置

df=df[['廣告id', '商品id', '商品類型', '廣告行業(yè)id', '素材尺寸','曝光次數(shù)']]

#################################################

###########以下是直接調(diào)取大形數(shù)據(jù)制作訓(xùn)練集#########

#################################################

#第一步讀取數(shù)據(jù)df1=pd.read_table('C:/Users/fafa/Desktop/testA/totalExposureLog.out',sep = '\t',header=None,engine='python')df2=pd.read_table('C:/Users/fafa/Desktop/testA/ad_static_feature.out',sep = '\t',header=None,engine='python')

#增加列名

df1.columns=['廣告請(qǐng)求id','廣告請(qǐng)求時(shí)間','廣告位id','用戶id','曝光廣告id','曝光廣告素材尺寸','曝光廣告出價(jià)bid','曝光廣告pctr','曝光廣告quality_ecpm','曝光廣告totalEcpm']df2.columns=['廣告id','創(chuàng)建時(shí)間','廣告賬戶id','商品id','商品類型','廣告行業(yè)id','素材尺寸']#對(duì)"曝光廣告id" 計(jì)數(shù)，得到 “廣告id”和“曝光次數(shù)”兩列雳锋。

df3=df1.曝光廣告id.value_counts().to_frame().reset_index().rename({"index":"廣告id","曝光廣告id":"曝光次數(shù)"},axis=1) df1.head()

#關(guān)聯(lián)廣告其他屬性到曝光次數(shù) 表格

df3.merge(df2,on="廣告id")

#刪除不需要的列

df4=df3.drop({'創(chuàng)建時(shí)間',"廣告賬戶id"},1) df4.head()

#修改列的位置

df5=df4[['廣告id', '商品id', '商品類型', '廣告行業(yè)id', '素材尺寸','曝光次數(shù)']]

#發(fā)現(xiàn)id中存在臟數(shù)據(jù) 所以清理一下（方法見(jiàn)臟數(shù)據(jù)的清理）

def max_str(t):

? ? a=[int(i) for i in t]

? ? return max(a)

df5["廣告id"]=df5["廣告id"].str.split(",").map(max_str)

df5["商品id"]=df5["商品id"].str.split(",").map(max_str)

df5["廣告行業(yè)id"]=df5["廣告行業(yè)id"].str.split(",").map(max_str)

#令空值NaN為0

df5.fillna(0)

df5.head()

###最終得到的df5就是一個(gè)數(shù)據(jù)集合，最后一列是Y羡洁，其余列都是特征X（要注意這里df5是有列名的）魄缚。然后套用nn模板(或者Light gbm 代碼在此)來(lái)訓(xùn)練即可。

####nn模板如下####

# -*- coding: utf-8 -*-

import pandas as pd

import numpy as np

from keras import metrics

from keras.models import Sequential

from keras.layers import Dense

from keras.wrappers.scikit_learn import KerasClassifier

from sklearn.model_selection import KFold, cross_val_scoredataset=pd.read_csv('housing.csv',header=None)

X=dataset.iloc[:,0:13]

Y=dataset.iloc[:,13]

# print(Y)

seed=7

np.random.seed(seed)

# 建立模型

optimizer='adam'

init='normal'

model=Sequential()

model.add(Dense(units=13,activation='relu',input_dim=13,kernel_initializer=init))

#構(gòu)建更多的隱藏層

model.add(Dense(units=10,activation='relu',kernel_initializer=init))

model.add(Dense(units=1,kernel_initializer=init))

#輸出層不需要進(jìn)行激活函數(shù),預(yù)測(cè)回歸的話unit=1# 編譯模型

model.compile(loss='mse',optimizer=optimizer,metrics=['acc'])

model.fit(X.values,Y.values,epochs=30,batch_size=64)

```

數(shù)據(jù)分析基本過(guò)程

XGBOOST模型訓(xùn)練數(shù)據(jù)集

If you are interested in this topic.
You can get in touch with me.
18234056952(Tel? wechat? qq)

最后編輯于：2019.05.10 08:05:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末焚廊，一起剝皮案震驚了整個(gè)濱河市冶匹，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌咆瘟，老刑警劉巖嚼隘，帶你破解...
沈念sama閱讀 206,723評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異袒餐，居然都是意外死亡飞蛹，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,485評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門灸眼，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)卧檐，“玉大人，你說(shuō)我怎么就攤上這事焰宣∶骨簦” “怎么了？”我有些...
開(kāi)封第一講書人閱讀 152,998評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵匕积，是天一觀的道長(zhǎng)盈罐。經(jīng)常有香客問(wèn)我榜跌，道長(zhǎng)，這世上最難降的妖魔是什么盅粪？我笑而不...
開(kāi)封第一講書人閱讀 55,323評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任钓葫，我火速辦了婚禮，結(jié)果婚禮上票顾，老公的妹妹穿的比我還像新娘础浮。我一直安慰自己，他們只是感情好奠骄，可當(dāng)我...
茶點(diǎn)故事閱讀 64,355評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布霸旗。她就那樣靜靜地躺著，像睡著了一般戚揭。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上撵枢，一...
開(kāi)封第一講書人閱讀 49,079評(píng)論 1贊 285
城市分裂傳說(shuō)
那天民晒，我揣著相機(jī)與錄音，去河邊找鬼锄禽。笑死潜必，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的沃但。我是一名探鬼主播磁滚，決...
沈念sama閱讀 38,389評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼宵晚！你這毒婦竟也來(lái)了垂攘？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 37,019評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤淤刃，失蹤者是張志新（化名）和其女友劉穎晒他，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體逸贾，經(jīng)...
沈念sama閱讀 43,519評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡陨仅，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,971評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了铝侵。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片灼伤。...
茶點(diǎn)故事閱讀 38,100評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖咪鲜，靈堂內(nèi)的尸體忽然破棺而出狐赡，到底是詐尸還是另有隱情，我是刑警寧澤疟丙，帶...
沈念sama閱讀 33,738評(píng)論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布猾警，位于F島的核電站孔祸，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏发皿。R本人自食惡果不足惜崔慧，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,293評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望穴墅。院中可真熱鬧惶室，春花似錦、人聲如沸玄货。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 30,289評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)松捉。三九已至夹界，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間隘世，已是汗流浹背可柿。一陣腳步聲響...
開(kāi)封第一講書人閱讀 31,517評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丙者，地道東北人复斥。一個(gè)月前我還...
沈念sama閱讀 45,547評(píng)論 2贊 354
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像械媒，于是被迫代替她去往敵國(guó)和親目锭。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,834評(píng)論 2贊 345

數(shù)據(jù)預(yù)處理之——騰訊廣告算法大賽

推薦閱讀更多精彩內(nèi)容