1. 如何進(jìn)行句子編碼榔幸,提取句子的特征向量,有哪幾種方式(CNN、LSTM削咆、Attention)喳篇,各種方式的優(yōu)缺點(diǎn)。
CNN态辛、LSTM、Transformer是目前流行的三大特征抽取器挺尿。
- 長距離特征捕獲能力:可以任務(wù)Transformer和LSTM在這方便能力差不多奏黑,而CNN則顯著弱于前兩者。(CNN提取長距離特征能力受到其
卷積核感受野
的限制编矾;Transformer使用attention
計(jì)算距離為1熟史,而且使用Multi-Head
越多,特征捕獲能力越強(qiáng)窄俏。) - 并行計(jì)算能力:并行計(jì)算是RNN的嚴(yán)重缺陷蹂匹,而Transformer和CNN差不多。
2. 介紹RNN凹蜈、LSTM限寞、GRU并比較。
RNN:
LSTM:
GRU:
總結(jié):RNN存在長依賴問題(梯度消失:使用ReLU
激活函數(shù)仰坦;或者梯度爆炸:使用梯度裁剪
履植;)。LSTM使用三個(gè)門控單元(遺忘門悄晃、輸入門玫霎、輸出門)
解決RNN存在的長依賴問題(主要是長依賴問題中的梯度消失
問題。)妈橄。GRU簡化了LSTM的結(jié)構(gòu)庶近,使用兩個(gè)門控單元(更新門、重置門)
眷蚓。
3. LSTM中輸入鼻种、隱藏層、輸出層的維度都一樣嗎溪椎?
輸入的維度可以與隱藏層和輸出不同普舆。
https://www.cnblogs.com/wushaogui/p/9176617.html
4. LSTM中步長改變,參數(shù)改變嗎校读?
LSTM的步長改變沼侣,對(duì)參數(shù)數(shù)量沒有
影響。
5. 估計(jì)一層LSTM的參數(shù)量歉秫。
對(duì)于LSTM來說蛾洛,假設(shè)你有一個(gè)時(shí)間步特征維度是,經(jīng)過該LSTM得到的維度是
,這樣就可以算出該LSTM層的神經(jīng)元個(gè)數(shù)為:
from keras.layers import LSTM
from keras.models import Sequential
time_step=13
featrue=5
hidenfeatrue=10
model=Sequential()
model.add( LSTM(hidenfeatrue,input_shape=(time_step,featrue)))
model.summary()
輸出是:
_________________________________________________________________________________
Layer (type) Output Shape Param #
=================================================================================
lstm_8 (LSTM) (None, 10) 640
=================================================================================
Total params: 640
Trainable params: 640
Non-trainable params: 0
_________________________________________________________________________________
6. textcnn和LSTM相比有什么不同轧膘?
textcnn是使用CNN做特征抽取的钞螟,提取方式類似于n-gram
的特征,忽略了詞序
谎碍,所以在詞序不敏感的場景效果較好鳞滨。LSTM可以捕獲序列信息
,在情感分析這種詞序很重要的場景中效果更好蟆淀。
7. LSTM和GRU的區(qū)別拯啦,GRU具體簡化了哪個(gè)門。
GRU(更新門熔任、重置門)
是LSTM(遺忘門褒链、輸入門、輸出門)
的變種疑苔,簡化了LSTM的結(jié)構(gòu)(記憶單元)
甫匹。
1. 如何做數(shù)據(jù)增強(qiáng)?
- 隨機(jī)drop和shuffle
比如:“如何評(píng)價(jià) 2017 知乎看山杯機(jī)器學(xué)習(xí)比賽?”惦费,drop后“如何 2017 看山杯機(jī)器學(xué)習(xí)”
兵迅;shuffle后“2017 機(jī)器學(xué)習(xí)?如何比賽知乎評(píng)價(jià)看山杯”
。 - 同義詞替換
例如趁餐,我們將句子“我非常喜歡這部電影”改為“我非常喜歡這個(gè)影片”
喷兼。 - 回譯
我們用機(jī)器翻譯把一段英語翻譯成另一種語言,然后再翻譯回英語后雷。 - 預(yù)訓(xùn)練的語言模型
- 生成對(duì)抗網(wǎng)絡(luò)