相同點(diǎn)
都是借助別人已有的NLP模型完成自己的任務(wù)
不同點(diǎn)
As shown in figure 2 of {1}, in the fine-tuning strategy all weights are changed when training on the new task (except for the weights of the last layers for the original task), whereas in the feature extraction strategy only the weights of the newly added last layers change during the training phase:
feature-baed and fine tuning
feature-based
只變化了最后一層的參數(shù)揍堰。
通常feature-based方法包括兩步:
- 首先在大的語(yǔ)料A上無(wú)監(jiān)督地訓(xùn)練語(yǔ)言模型,訓(xùn)練完畢得到語(yǔ)言模型(用作embeddining)
- 然后構(gòu)造task-specific model例如序列標(biāo)注模型嗅义,采用有標(biāo)記的語(yǔ)料B來(lái)有監(jiān)督地訓(xùn)練task-specific model个榕,將語(yǔ)言模型的參數(shù)固定,語(yǔ)料B的訓(xùn)練數(shù)據(jù)經(jīng)過(guò)語(yǔ)言模型得到LM embedding(language model)芥喇,作為task-specific model的額外特征
EMLO是這種方法的典型
fine-tuning
除了最后一層,所有的參數(shù)都變化了凰萨。
Fine-tuning方式是指在已經(jīng)訓(xùn)練好的語(yǔ)言模型的基礎(chǔ)上继控,加入少量的task-specific parameters, 例如對(duì)于分類問(wèn)題在語(yǔ)言模型基礎(chǔ)上加一層softmax網(wǎng)絡(luò)械馆,然后在新的語(yǔ)料上重新訓(xùn)練來(lái)進(jìn)行fine-tune。
- 構(gòu)造語(yǔ)言模型武通,采用大的語(yǔ)料A來(lái)訓(xùn)練語(yǔ)言模型
- 在語(yǔ)言模型基礎(chǔ)上增加少量神經(jīng)網(wǎng)絡(luò)層來(lái)完成specific task例如序列標(biāo)注霹崎、分類等,然后采用有標(biāo)記的語(yǔ)料B來(lái)有監(jiān)督地訓(xùn)練模型冶忱,這個(gè)過(guò)程中語(yǔ)言模型的參數(shù)并不固定尾菇,依然是trainable variables.
參考資料知乎fine-tuning