TF-word2vec模型-學(xué)習(xí)文字的向量表示

之所以要文字的向量表示,是因?yàn)槲淖謱W(xué)習(xí)與圖像與音頻的學(xué)習(xí)過程是不一樣的逞敷,圖像或音頻的全部信息都存儲(chǔ)在原始數(shù)據(jù)里雅宾,我們直接對(duì)其中的像素或者功率譜密度強(qiáng)度值進(jìn)行操作,因?yàn)槿祟惐旧砭褪且蕾囋紨?shù)據(jù)進(jìn)行處理的鸭丛,然而文字處理是需要將文字編碼,這些符號(hào)編碼毫無規(guī)律唐责,每個(gè)編碼之間毫無關(guān)聯(lián)性鳞溉,那么我們還怎么利用它們進(jìn)行學(xué)習(xí)呢?

因此就不能讓其拆分成編碼鼠哥,正確的操作是把其化為一個(gè)向量空間中的一個(gè)點(diǎn)熟菲,具有相似語義的點(diǎn)放在一起,那么它們之間就會(huì)有關(guān)聯(lián)性朴恳,那么就易于處理了抄罕。

Word2Vec模型中,主要有Skip-Gram和CBOW兩種模型于颖,從直觀上理解呆贿,Skip-Gram是給定input word來預(yù)測(cè)上下文。而CBOW是給定上下文森渐,來預(yù)測(cè)input word榨崩。本篇文章僅講解Skip-Gram模型。網(wǎng)上的博客大多都是在講Skip-Gram模型章母。

相似的母蛛,本模型也不是為了直接利用訓(xùn)練好的模型,而僅僅是獲得它的參數(shù)乳怎,例如隱層的權(quán)重矩陣彩郊,一些不那么明顯的參數(shù),建模并不是我們的最終目的蚪缀。

其基本原理是建立詞之間的關(guān)聯(lián)度秫逝,那么關(guān)聯(lián)度是如何得出?實(shí)際上是統(tǒng)計(jì)出來的询枚,例如得到一個(gè)詞后违帆,從頭到尾搜索這個(gè)詞,然后把它左右兩邊的詞跟它建立聯(lián)系金蜀,那么刷后,嗯,簡(jiǎn)單來說就是這樣渊抄,雖然簡(jiǎn)單但是有意想不到的有用之處尝胆。如果單詞比較出現(xiàn)的頻率高,那么它的權(quán)重值也會(huì)更大一點(diǎn)护桦,也就是這樣了含衔。

但是有一個(gè)問題是神經(jīng)網(wǎng)絡(luò)只接受數(shù)值輸入,實(shí)際上這個(gè)只是一個(gè)技術(shù)的問題,我們可以給它進(jìn)行onehot編碼贪染,這個(gè)沒什么難的缓呛。例如一共有10000的單詞,就分別設(shè)它們的id為從1-10000就可以了杭隙,這個(gè)時(shí)候哟绊,它的特征幾乎就是它所關(guān)聯(lián)的詞的權(quán)重以及數(shù)量了。

這樣做有很多好處寺渗,例如同義的單詞匿情,它們會(huì)非常相近,有聯(lián)系的單詞信殊,它們會(huì)次要比較接近炬称,甚至兩個(gè)詞的集群之間,它們也會(huì)由于學(xué)習(xí)涡拘,從而逐漸接近或者逐漸拉遠(yuǎn)玲躯,關(guān)鍵是看你怎么用了。

但是有一點(diǎn)的是鳄乏,這種分析僅僅是對(duì)單詞的分析跷车,無法進(jìn)行句子的分析,事實(shí)上橱野,通過單詞的分析對(duì)句子的構(gòu)成模擬度并不是那么好朽缴,針對(duì)句子還是要進(jìn)行句法上的分析才行,然而上述提到的方法并沒有水援。

在這種向量構(gòu)造法中會(huì)有非常有趣的現(xiàn)象發(fā)生密强,向量之間的關(guān)系可以非常形象的描述為詞與詞之間的關(guān)系----平行,例如男人->女人之間的關(guān)系會(huì)與國(guó)王->王后之間的關(guān)系平行蜗元,田徑->跑步之間的關(guān)系會(huì)與泳池->游泳之間的關(guān)系平行或渤,這個(gè)并不是人為參與構(gòu)建的,這些完全是自動(dòng)構(gòu)建的奕扣。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末薪鹦,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子惯豆,更是在濱河造成了極大的恐慌池磁,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件循帐,死亡現(xiàn)場(chǎng)離奇詭異框仔,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)拄养,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人瘪匿,你說我怎么就攤上這事跛梗。” “怎么了棋弥?”我有些...
    開封第一講書人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵核偿,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我顽染,道長(zhǎng)漾岳,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任粉寞,我火速辦了婚禮尼荆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘唧垦。我一直安慰自己捅儒,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開白布振亮。 她就那樣靜靜地躺著巧还,像睡著了一般。 火紅的嫁衣襯著肌膚如雪坊秸。 梳的紋絲不亂的頭發(fā)上麸祷,一...
    開封第一講書人閱讀 52,441評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音褒搔,去河邊找鬼阶牍。 笑死,一個(gè)胖子當(dāng)著我的面吹牛站超,可吹牛的內(nèi)容都是我干的荸恕。 我是一名探鬼主播,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼死相,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼融求!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起算撮,我...
    開封第一講書人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤生宛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后肮柜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陷舅,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年审洞,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了莱睁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖仰剿,靈堂內(nèi)的尸體忽然破棺而出创淡,到底是詐尸還是另有隱情,我是刑警寧澤南吮,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布琳彩,位于F島的核電站,受9級(jí)特大地震影響部凑,放射性物質(zhì)發(fā)生泄漏露乏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一涂邀、第九天 我趴在偏房一處隱蔽的房頂上張望瘟仿。 院中可真熱鬧,春花似錦必孤、人聲如沸猾骡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽兴想。三九已至,卻和暖如春赡勘,著一層夾襖步出監(jiān)牢的瞬間嫂便,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工闸与, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留毙替,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓践樱,卻偏偏與公主長(zhǎng)得像厂画,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子拷邢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容