https://www.boyuai.com/elites/
重點留坑內(nèi)容的代碼實踐:
1、Kaggle房價預(yù)測
2须误、modernCNN
3搂妻、modernRNN
4速址、注意力機制和Transformer
1、Kaggle房價預(yù)測
未經(jīng)調(diào)優(yōu)的數(shù)據(jù)的預(yù)處理逆粹、模型的設(shè)計和超參數(shù)的選擇募疮。
1)查看數(shù)據(jù)
查看前4個樣本的前4個特征、后2個特征和標(biāo)簽(SalePrice)
從這一步開始有疑問僻弹,pd.concat()
數(shù)據(jù)預(yù)處理:對連續(xù)數(shù)值的特征做標(biāo)準(zhǔn)化(standardization)阿浓、將離散數(shù)值轉(zhuǎn)成指示特征(0、1)
因為python編程水平問題導(dǎo)致代碼理解開始出現(xiàn)困難蹋绽,還因為對pd.get_dummies等功能函數(shù)的不熟悉
這一步轉(zhuǎn)換將特征數(shù)從79增加到了331芭毙,為什么?
.view(-1, 1)的功能:一行轉(zhuǎn)換成一列
https://www.cnblogs.com/MartinLwx/p/10543604.html
訓(xùn)練模型部分的代碼理解出現(xiàn)困難卸耘,子函數(shù)勉強能夠看懂其功能退敦。
1要知道流程
2要會每個流程中的子函數(shù)寫法
復(fù)習(xí)交叉驗證:https://blog.csdn.net/u010451580/article/details/51373081/
還很欠缺,尤其是2.
2鹊奖、modernCNN:AlexNet/VGG/NiN/GoogLeNet
LeNet苛聘、AlexNet和VGG:先以由卷積層構(gòu)成的模塊充分抽取 空間特征,再以由全連接層構(gòu)成的模塊來輸出分類結(jié)果忠聚。
NiN:串聯(lián)多個由卷積層和“全連接”層構(gòu)成的小?絡(luò)來構(gòu)建?個深層?絡(luò)设哗。
GoogLeNet:并聯(lián)
3、ModernRNN:GRU/LSTM/深層RNN/雙向RNN
出現(xiàn)明顯的拖延两蟀、抗拒感网梢。。赂毯。
4战虏、注意力機制和Transformer
3) 第三次打卡內(nèi)容(2月18日-21日)截止打卡時間:2/21-22:00
直播分享(2月18日)
Task06:批量歸一化和殘差網(wǎng)絡(luò);凸優(yōu)化党涕;梯度下降(1天)
Task07:優(yōu)化算法進階烦感;word2vec;詞嵌入進階(1天)
Task08:文本分類膛堤;數(shù)據(jù)增強手趣;模型微調(diào)(1天)
19、優(yōu)化算法進階(太深了肥荔,學(xué)不進去了)
Adagrad的自適應(yīng)學(xué)習(xí)率沒有使用EMA绿渣,而是對梯度平方進行累加朝群,因而存在梯度消失的問題
Moving Average解決了Adagrad梯度消失的問題,RMSProp不是直接對梯度平方進行累加,而是使用EMA對上一時刻的自適應(yīng)學(xué)習(xí)率的分母進行衰減.
AdaGrad出現(xiàn)梯度消失的原因是自適應(yīng)學(xué)習(xí)率分母的不斷累加使其存在最終趨于0的可能,當(dāng)梯度一直不為0時中符,Adagrad的自適應(yīng)學(xué)習(xí)率的分母會不斷累加姜胖,使自適應(yīng)學(xué)習(xí)率趨于0,出現(xiàn)梯度消息的問題.
AdaDelta是基于RMSProp的改進算法淀散,其只有一個超參數(shù),Adelta是基于RMSprop的改進右莱,只需傳入EMA的衰減參數(shù).
Adam使用了Momentum算法,其是RMSProp與Momentum的結(jié)合
Adam:
Adam使用了Exponential Moving AverageAdam
對大小相差很大數(shù)量級的梯度都可以rescale到相近的大小
Adam是RMSProp和Momentum算法的結(jié)合吧凉,并對EMA權(quán)重進行了無偏操作
Adam使用了兩次Exponential Moving Average隧出,并且二者使用相同的衰減參數(shù)
mt??和?v_tvt??均使用了EMA,但是二者的衰減參數(shù)并不相同
20阀捅、word2vec詞嵌入基礎(chǔ)
one-hot 詞向量無法準(zhǔn)確表達不同詞之間的相似度胀瞪。
Word2Vec 詞嵌入將每個詞表示成一個定長的向量,并通過在語料庫上的預(yù)訓(xùn)練使得這些向量能較好地表達不同詞之間的相似和類比關(guān)系饲鄙,以引入一定的語義信息凄诞。
Word2Vec 能從語料中學(xué)到如何將離散的詞映射為連續(xù)空間中的向量,并保留其語義上的相似關(guān)系忍级。
Skip-Gram 模型的實現(xiàn):
PTB 數(shù)據(jù)集:載入數(shù)據(jù)集帆谍、建立詞語索引、二次采樣轴咱、提取中心詞和背景詞
Skip-Gram 跳字模型
負(fù)采樣近似
訓(xùn)練模型
除負(fù)采樣方法外汛蝙,還有層序 softmax (hiererarchical softmax) 方法也可以用來解決計算量過大的問題。
21朴肺、詞嵌入進階(太難)
文本學(xué)習(xí)難度過大窖剑。。戈稿。