3分鐘熱情學(xué)NLP第9篇定罢,GloVe模型
GloVe的全稱叫Global Vectors for Word Representation芍殖,它是一個(gè)基于全局詞頻統(tǒng)計(jì)(count-based & overall statistics)的詞表征(word representation)工具,它可以把一個(gè)單詞表達(dá)成一個(gè)由實(shí)數(shù)組成的向量嘿期,這些向量捕捉到了單詞之間一些語義特性疚膊,比如相似性(similarity)忽舟、類比性(analogy)等随闺。通過對(duì)向量的運(yùn)算日川,比如歐幾里得距離或者cosine相似度,可以計(jì)算出兩個(gè)單詞之間的語義相似性矩乐。
模型目標(biāo):進(jìn)行詞的向量化表示龄句,使得向量之間盡可能多地蘊(yùn)含語義和語法的信息。
輸入:語料庫
輸出:詞向量
方法概述:首先基于語料庫構(gòu)建詞的共現(xiàn)矩陣散罕,然后基于共現(xiàn)矩陣和GloVe模型學(xué)習(xí)詞向量分歇。
實(shí)現(xiàn)步驟