離散制造過程中典型工件的質(zhì)量符合率分類(2019-08-25)

最近误证,在DataFountain平臺由中國計算機學會 & 西門子舉辦了一個“離散制造過程中典型工件的質(zhì)量符合率預(yù)測”的比賽,就嘗試了一下岸军。

1.數(shù)據(jù)清洗

發(fā)現(xiàn)數(shù)據(jù)集的中每個特征最大最小值相差非常大苟弛,而且很大的數(shù)字不在少數(shù)。嘗試用正態(tài)分布異常點檢測法初步對異常值進行判斷掺冠,并用均值進行替換。然而码党,替換完后德崭,還是存在不少的異常點。


清洗前的數(shù)據(jù)
清洗后的數(shù)據(jù)

2.構(gòu)建模型

其實揖盘,還可以利用加減乘除構(gòu)建人工特征……并用多個模型融合以提高準確率眉厨,這里就是做了一個Baseline,在沒有調(diào)參數(shù)的情況下兽狭,分別用SVM憾股、MLP、CNN箕慧、LihtGBM服球、XGBoost跑了一遍,發(fā)現(xiàn)最后一個準確率在50%左右颠焦,其他的都是在41%-45%之間斩熊。

2.1 SVM (這個使用MATLAB跑的)

Data=csvread('Train_AfterQinXi.csv');

BiLi=0.1;? %注意點 1.最后一列要按順序排列,并且最后一列一定是類型伐庭,需要設(shè)定測試集的比例

[m,n]=size(Data);%最后一列是分類的類型粉渠,Excel要排序

Testnum=zeros(1,max(Data(:,n))+1);

Speicesnum=Testnum;

kkk=1;

sum0=0;

BJS=Data(1,n);

for j=1:m

? ? if Data(j,n)==BJS

? ? ? sum0=sum0+1;

? ? else

? ? ? Speicesnum(kkk)=sum0;

? ? ? Testnum(kkk)=floor(BiLi*sum0);kkk=kkk+1;

? ? ? sum0=1;BJS=Data(j,n);

? ? end

end

Testnum(1,end)=floor(BiLi*sum0);

Speicesnum(1,end)=sum0;

for j=1:length(Testnum)

? ? if Testnum(j)==0

? ? ? Testnum(j)=1;

? ? end

end

%求出每類的個數(shù)

Train_Feature=[];

Train_Label=[];

Test_Feature=[];

Test_Label=[];

for j=1:max(Data(:,n))+1

? ? if j==1

? ? ? Kaishi=1;

? ? else

? ? ? Kaishi=sum(Speicesnum(1,1:j-1))+1;

? ? end

? ? JieSu1=sum(Speicesnum(1,1:j))-Testnum(j);

? ? JieSu2=sum(Speicesnum(1,1:j));

? ? Train_Feature=[Train_Feature;Data(Kaishi:JieSu1,1:n-1)];

? ? Train_Label=[Train_Label;Data(Kaishi:JieSu1,n)];

? ? Test_Feature=[Test_Feature;Data(JieSu1+1:JieSu2,1:n-1)];

? ? Test_Label=[Test_Label;Data(JieSu1+1:JieSu2,n)];

end

%數(shù)據(jù)預(yù)處理,將訓練集和測試集歸一化到[0,1]區(qū)間

[mtrain,ntrain] = size(Train_Feature);

[mtest,ntest] = size(Test_Feature);

dataset = [Train_Feature;Test_Feature];

[dataset_scale,ps] = mapminmax(dataset',0,1);

dataset_scale = dataset_scale';

Train_Feature = dataset_scale(1:mtrain,:);

Test_Feature = dataset_scale( (mtrain+1):(mtrain+mtest),: );

%SVM網(wǎng)絡(luò)訓練和預(yù)測

model = fitcecoc(Train_Feature,Train_Label);

[predict_label] =predict(model,Test_Feature);

accuracy=0;

for j=1:length(Test_Label)

? ? if Test_Label(j)==predict_label(j)

? ? ? accuracy=accuracy+1;

? ? end

end

accuracy=accuracy/length(Test_Label)

2.2 LightGBM

import lightgbm as lgb

import numpy as np

from pandas import read_csv

from sklearn import datasets

from xgboost import plot_importance

from matplotlib import pyplot as plt

from sklearn.model_selection import train_test_split

dataset = read_csv('ZeroOne_Train.csv')

XXX = read_csv('ZeroOne_Test.csv')

values = dataset.values

XY= values

Y = XY[:,10]

n_train_hours1 =5398

x_train=XY[:n_train_hours1,0:10]

trainY =Y[:n_train_hours1]

x_test =XY[n_train_hours1:, 0:10]

testY =Y[n_train_hours1:]

X_train=np.array(x_train,dtype=np.float)

X_test=np.array(x_test,dtype=np.float)

y_train=np.array(trainY,dtype=np.int)

y_test=np.array(testY,dtype=np.int)

XXX=np.array(XXX,dtype=np.float)

params = {

'boosting_type': 'gbdt',

'objective': 'multiclassova',

'num_class': 4,?

'metric': 'multi_error',

'num_leaves': 63,

'learning_rate': 0.01,

'feature_fraction': 0.9,

'bagging_fraction': 0.9,

'bagging_seed':0,

'bagging_freq': 1,

'verbose': -1,

'reg_alpha':1,

'reg_lambda':2,

'lambda_l1': 0,

'lambda_l2': 1,

'num_threads': 8,

}

train_data=lgb.Dataset(X_train,label=y_train)

validation_data=lgb.Dataset(X_test,label=y_test)

clf=lgb.train(params,train_data,valid_sets=[validation_data],num_boost_round = 1300,verbose_eval = 100)

y_pred=clf.predict(XXX, num_iteration=1300)

2.3 XGBoost

import xgboost as xgb

import numpy as np

from pandas import read_csv

from xgboost import plot_importance

from matplotlib import pyplot as plt

from sklearn.model_selection import train_test_split

dataset = read_csv('ZeroOne_Train.csv')

XXX = read_csv('ZeroOne_Test.csv')

values = dataset.values

XY= values

Y = XY[:,10]

n_train_hours1 =5398

x_train=XY[:n_train_hours1,0:10]

trainY =Y[:n_train_hours1]

x_test =XY[n_train_hours1:, 0:10]

testY =Y[n_train_hours1:]

X_train=np.array(x_train,dtype=np.float)

X_test=np.array(x_test,dtype=np.float)

y_train=np.array(trainY,dtype=np.int)

y_test=np.array(testY,dtype=np.int)

XXX=np.array(XXX,dtype=np.float)

params = {

? ? 'booster': 'gbtree',

? ? 'objective': 'multi:softmax',

? ? 'num_class': 4,

? ? 'gamma': 0.1,

? ? 'max_depth': 6,

? ? 'lambda': 2,

? ? 'subsample': 0.7,

? ? 'colsample_bytree': 0.7,

? ? 'min_child_weight': 3,

? ? 'silent': 1,

? ? 'eta': 0.1,

? ? 'seed': 1000,

? ? 'nthread': 4,

}

plst = params.items()

dtrain = xgb.DMatrix(X_train, y_train)

num_rounds = 500

model = xgb.train(plst, dtrain, num_rounds)

# 對測試集進行預(yù)測

dtest = xgb.DMatrix(XXX)

ans = model.predict(dtest)

2.4 MLP

from __future__ import print_function

import keras

from keras.models import Sequential

from keras.layers import Dense, Dropout

from pandas import read_csv

batch_size = 100

num_classes = 4

epochs = 200

dataset = read_csv('ZeroOne_Train.csv')

XXX = read_csv('ZeroOne_Test.csv')

values = dataset.values

XY= values

Y = XY[:,10]

n_train_hours1 =5398

x_train=XY[:n_train_hours1,0:10]

trainY =Y[:n_train_hours1]

x_test =XY[n_train_hours1:, 0:10]

testY =Y[n_train_hours1:]

y_train = keras.utils.to_categorical(trainY, num_classes)

y_test = keras.utils.to_categorical(testY, num_classes)

model = Sequential()

model.add(Dense(128,input_dim=10,kernel_initializer='normal',activation='relu'))

model.add(Dense(128,kernel_initializer='normal',activation='relu'))

model.add(Dense(128,kernel_initializer='normal',activation='relu'))

model.add(Dropout(0.25))

model.add(Dense(num_classes, activation='softmax'))

model.summary()

model.compile(loss=keras.losses.categorical_crossentropy,

? ? ? ? ? ? ? optimizer=keras.optimizers.Adadelta(),

? ? ? ? ? ? ? metrics=['accuracy'])

history=model.fit(x_train, y_train,

? ? ? ? ? ? ? ? ? ? ? ? batch_size=batch_size,

? ? ? ? ? ? ? ? ? ? ? ? epochs=epochs,

? ? ? ? ? ? ? ? ? ? ? ? verbose=2,

? ? ? ? ? ? ? ? ? ? ? ? validation_data=(x_test, y_test))

prediction=model.predict_classes(XXX)

2.5 CNN

from __future__ import print_function

import keras

from keras.datasets import mnist

from keras.models import Sequential

from keras.layers import Dense, Dropout, Flatten

from keras.layers import Conv2D, MaxPooling2D

from keras import backend as K

from pandas import read_csv

batch_size = 32

num_classes = 4

epochs = 200

# input image dimensions

# 輸入圖像維度

img_rows, img_cols = 4, 4

input_shape = (img_rows, img_cols, 1)

# the data, shuffled and split between train and test sets

# 用于訓練和測試的數(shù)據(jù)集,經(jīng)過了篩選(清洗圾另、數(shù)據(jù)樣本順序打亂)和分割(分割為訓練和測試集)

dataset = read_csv('ZeroOne_Train_CNN.csv')

values = dataset.values

XY= values

Featurenumber=img_rows*img_cols

Y = XY[:,Featurenumber]

n_train_hours1 =5398

x_train=XY[:n_train_hours1,0:Featurenumber]

trainY =Y[:n_train_hours1]

x_test =XY[n_train_hours1:, 0:Featurenumber]

testY =Y[n_train_hours1:]

x_train = x_train.reshape(-1,4,4,1)

x_test = x_test.reshape(-1,4,4,1)

y_train = keras.utils.to_categorical(trainY, num_classes)

y_test = keras.utils.to_categorical(testY, num_classes)

model = Sequential()

model.add(Conv2D(16, kernel_size=(3, 3),

? ? ? ? ? ? ? ? activation='relu',

? ? ? ? ? ? ? ? padding='same',

? ? ? ? ? ? ? ? input_shape=input_shape))

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(32, kernel_size=(3, 3),

? ? ? ? ? ? ? ? activation='relu',

? ? ? ? ? ? ? ? padding='same'))

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Dropout(0.25))

model.add(Flatten())

model.add(Dense(16, activation='relu'))

model.add(Dropout(0.5))

model.add(Dense(num_classes, activation='softmax'))

model.summary()

model.compile(loss=keras.losses.categorical_crossentropy,

? ? ? ? ? ? ? optimizer=keras.optimizers.Adadelta(),

? ? ? ? ? ? ? metrics=['accuracy'])

history=model.fit(x_train, y_train,

? ? ? ? ? ? ? ? ? ? ? ? batch_size=batch_size,

? ? ? ? ? ? ? ? ? ? ? ? epochs=epochs,

? ? ? ? ? ? ? ? ? ? ? ? verbose=2,

? ? ? ? ? ? ? ? ? ? ? ? validation_data=(x_test, y_test))

a=history.history['acc']

b=history.history['val_acc']

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末霸株,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子集乔,更是在濱河造成了極大的恐慌去件,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件扰路,死亡現(xiàn)場離奇詭異尤溜,居然都是意外死亡,警方通過查閱死者的電腦和手機幼衰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門靴跛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來缀雳,“玉大人渡嚣,你說我怎么就攤上這事。” “怎么了识椰?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵绝葡,是天一觀的道長。 經(jīng)常有香客問我腹鹉,道長藏畅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任功咒,我火速辦了婚禮愉阎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘力奋。我一直安慰自己榜旦,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布景殷。 她就那樣靜靜地躺著溅呢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪猿挚。 梳的紋絲不亂的頭發(fā)上咐旧,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機與錄音绩蜻,去河邊找鬼铣墨。 笑死,一個胖子當著我的面吹牛辜羊,可吹牛的內(nèi)容都是我干的踏兜。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼八秃,長吁一口氣:“原來是場噩夢啊……” “哼碱妆!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起昔驱,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤疹尾,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后骤肛,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纳本,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年腋颠,在試婚紗的時候發(fā)現(xiàn)自己被綠了繁成。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡淑玫,死狀恐怖巾腕,靈堂內(nèi)的尸體忽然破棺而出面睛,到底是詐尸還是另有隱情,我是刑警寧澤尊搬,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布叁鉴,位于F島的核電站,受9級特大地震影響佛寿,放射性物質(zhì)發(fā)生泄漏幌墓。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一冀泻、第九天 我趴在偏房一處隱蔽的房頂上張望常侣。 院中可真熱鬧,春花似錦弹渔、人聲如沸袭祟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽巾乳。三九已至,卻和暖如春鸟召,著一層夾襖步出監(jiān)牢的瞬間胆绊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工欧募, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留压状,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓跟继,卻偏偏與公主長得像种冬,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子舔糖,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容