? ? ? ?Keras中用于masking以及padding的兩個函數(shù)分別是keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype='int32', padding='pre', truncating='pre', value=0.0)以及keras.layers.Masking(mask_value=0.0)践宴。
? ? ? ?pad_sequences用于將序列填充到相同的長度对室。可以將一個由num_samples個序列(每個序列又是一個整數(shù)的列表,每個數(shù)字對應(yīng)詞典中的詞的ID)構(gòu)成的列表轉(zhuǎn)化為一個形狀為(num_samples, num_timesteps)的二維numpy數(shù)組宇色。num_timesteps這個量可以由參數(shù)maxlen來控制;如果maxlen為None嘲恍,那么num_timesteps默認(rèn)為原來的序列當(dāng)中最長那個序列的長度息堂。相應(yīng)的嚷狞,如果序列長度小于num_timesteps,那么就在其后填充0直到長度為num_timesteps荣堰。如果序列長于num_timesteps感耙,將會被削短。填充或者是削短的位置由參數(shù)padding和truncating的值來控制持隧,默認(rèn)填充位置在序列開始位置之前即硼。
? ? ? ?幾個傳入?yún)?shù)的說明:
? ? ? ?sequences: List of lists, where each element is a sequence.
? ? ? ?maxlen: Int, maximum length of all sequences.
? ? ? ?dtype: Type of the output sequences. To pad sequences with variable length strings, you can use object.
? ? ? ?padding: String, 'pre' or 'post': pad either before or after each sequence.
? ? ? ?truncating: String, 'pre' or 'post': remove values from sequences larger than maxlen, either at the beginning or at the end of the sequences.
? ? ? ?value: Float or String, padding value.
? ? ? ?舉一個簡單的例子:
input:
seqs = [[1,2,3,4],[2,3,4,5,6,6,6]] # list of integar lists
op:
K.preprocessing.sequence.pad_sequences(a, maxlen=10, dtype='int32', padding='pre', truncating='pre', value=0.0)
output:
array([[0, 0, 0, 0, 0, 0, 1, 2, 3, 4],[0, 0, 0, 2, 3, 4, 5, 6, 6, 6]])
? ? ? ?keras.layers.Masking(mask_value=0.0)是用于對值為指定值的位置進行掩蔽的操作,以忽略對應(yīng)的timestep屡拨。在輸入張量的每個時刻(即輸入張量的第一個維度)只酥,如果輸入張量在這一時刻的所有值都等于指定的mask_value,那么這一時刻將會在接下來的下游層都會被跳過(只要其支持masking操作)呀狼。如果下游層不支持masking操作裂允,那么就會報錯。
? ? ? ?舉例如下:考慮一個numpy數(shù)據(jù)x哥艇,其具有(samples, timesteps, features)的形狀绝编。這組數(shù)據(jù)將會被送入到LSTM層中。由于數(shù)據(jù)缺乏貌踏,想要掩蔽第三個和第五個時刻十饥,首先應(yīng)當(dāng)將數(shù)據(jù)操作如下:
x[:, 3, :] = 0.
x[:, 5, :] = 0.
然后,在原來的基礎(chǔ)上添加掩蔽層:
model = Sequential()
model.add(Masking(mask_value=0., input_shape=(timesteps, features)))
model.add(LSTM(32))