簡介 本文介紹一下機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中常用的優(yōu)化算法和優(yōu)化器以及一些其他我知道的優(yōu)化算法,部分算法我也沒有搞懂,就先記錄下來以后慢慢研究吧.*_...
簡介 因?yàn)樯窠?jīng)網(wǎng)絡(luò)是線性組合,激活函數(shù)給神經(jīng)元引入了非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù),這樣神經(jīng)網(wǎng)絡(luò)就可以應(yīng)用到眾多的非線性模型...
前言 學(xué)習(xí)決策樹時會接觸到一些信息熵,條件熵和信息增益的知識,此外還有互信息,相對熵,交叉熵和互信息,KL散度等等亂七八糟的知識和名字,我本人已...
簡介 Transformer是谷歌提出的只基于Attention的網(wǎng)絡(luò)模型,它也是一種Encoder-Decoder的網(wǎng)絡(luò)結(jié)構(gòu),但是沒有使用任何...
簡介: BERT,全稱BidirectionalEncoderRepresentations fromTransformers,是一個預(yù)訓(xùn)練的語...
BM25算法,通常用于計算兩個文本,或者文本與文檔之間的相關(guān)性.所以可以用于文本相似度計算和文本檢索等應(yīng)用場景.它的主要思想是:對于文本quer...
前面說了Memory-network的基礎(chǔ)模型以及可以end to end的擴(kuò)展形式.但是其模型還是有很多缺陷,比如只能處理簡單的文本數(shù)據(jù),無法...
基礎(chǔ)Memory-network 傳統(tǒng)的RNN/LSTM等模型的隱藏狀態(tài)或者Attention機(jī)制的記憶存儲能力太弱,無法存儲太多的信息,很容易...
最近在研究問答系統(tǒng),但是在查找資料的過程中一直處于懵逼狀態(tài),因?yàn)閱柎鹣到y(tǒng)分類比較多,根據(jù)不同的依據(jù)可以分為不同種類,總是搞混,也沒有找到資料詳細(xì)...