截圖來(lái)自bilibili上的公開課
wordnet
根據(jù)一個(gè)詞周圍的詞語(yǔ)意思可以推測(cè)出這個(gè)詞的含義
word vectors
word vector
=word embeddings
=word representations
詞嵌入就是 實(shí)現(xiàn)了 從高維到低維的表示?
(詞的獨(dú)熱表示(one-hot representation)滋觉,首先是高維的椎侠,且在高維向量中只有一個(gè)維度描述了詞的語(yǔ)義)
(把文本分散嵌入到另一個(gè)空間我纪,一般從是從高維空間嵌入到低維空間。)
如何在低維空間表達(dá)一個(gè)詞呢璧诵?目前流行的是通過矩陣降維或神經(jīng)網(wǎng)絡(luò)降維將語(yǔ)義分散存儲(chǔ)到向量的各個(gè)維度中之宿,這兩類方法得到的向量空間是低維的一般都可以稱作分布式表示苛坚,又稱為詞嵌入(word embedding)或詞向量)泼舱。
詞向量基于語(yǔ)言模型的假設(shè)——“一個(gè)詞的含義可以由它的上下文推斷得出“娇昙,提出了詞的Distributed Representation表示方法。相較于傳統(tǒng)NLP的高維噪裕、稀疏的表示法(One-hot Representation)膳音,Word2Vec訓(xùn)練出的詞向量是低維祭陷、稠密的兵志。
Word2vec是一個(gè)開源工具 不是算法
Overview
objective function
softmax function
softmax function是什么:
對(duì)于多類分類問題即輸出多個(gè)概率的問題钉寝,sigmoid函數(shù)就使不上勁了嵌纲。這時(shí)候就需要運(yùn)用softmax了逮走。
softmax是如何由來(lái)的呢师溅?
舉個(gè)簡(jiǎn)單的例子(例子來(lái)自u(píng)dacity的深度學(xué)習(xí)課程里的解釋),要建立一個(gè)模型蘸鲸,對(duì)于我們看到的動(dòng)物窿锉,我們要分別輸出為鴨子嗡载,海貍和海豹的概率洼滚。基于種種特征輸入耿芹,現(xiàn)在鴨子吧秕,海貍和海豹得到的分?jǐn)?shù)分別為 2 , 1 和 0迹炼。計(jì)算概率的最簡(jiǎn)單的方法就是將它們各自的得分除以它們得分的總和斯入。所以得到概率分別為 2/3 , 1/3 和 0。但是這種方法會(huì)有個(gè)弊端增蹭,當(dāng)?shù)梅职?fù)數(shù)會(huì)出現(xiàn)這樣的情況:1/(1+0+(-1))滋迈,這時(shí)候就沒法計(jì)算概率了饼灿。
聯(lián)想到指數(shù)函數(shù)(ex)會(huì)將輸入的任何數(shù)轉(zhuǎn)換為正數(shù)的特性碍彭,用它來(lái)轉(zhuǎn)換得分再計(jì)算概率就會(huì)避免上述方法的弊端庇忌。基于 2, 1, 0 的得分皆疹,計(jì)算概率分別為 e2/e2+e1+e0=0.67, e1/e2+e1+e0=0.24, e0/e2+e1+e0=0.09,這樣就完成了一個(gè)多類分類的問題创译。
contour lines 等高線
梯度下降
關(guān)于梯度下降法的一些介紹
https://blog.csdn.net/guomutian911/article/details/78448171
(個(gè)人理解:沿著梯度的反方向快速找到最小值)