在NLP任務(wù)中毯辅,我們將自然語言交給機器學(xué)習(xí)算法來處理煞额,但機器無法直接理解人類的語言沾谜,因此首先的任務(wù)就是將語言數(shù)學(xué)化胀莹,如何對自然語言進行數(shù)學(xué)化呢?詞向量提供了一種很好的形式描焰。這里我們介紹兩種簡單的詞向量
1、one-hot representation
一種最簡單的詞向量就是one-hot representation篱竭,就是用一個很長的向量來表示一個詞步绸,向量的長度為辭典D的大小N掺逼,向量的分量只有一個1瓤介,其他全部是0,1的位置對應(yīng)蓋茨在辭典中的索引氯质,但這種詞向量有一些缺點漾月,容易受到維數(shù)災(zāi)難的困擾病梢,同時梁肿,他不能很好的刻畫詞與詞之間的相關(guān)性觅彰。
2、Distributed representation
另一種詞向量是Distributed representation填抬,其基本思想是:通過訓(xùn)練某種語言的每一個詞映射成一個固定長度的短向量,所有這些向量構(gòu)成一個詞向量空間赘娄,而每個向量視為這個空間中的一個點宏蛉,那么,可以在這個空間中引入距離的概念拾并,比如余弦距離鹏浅,用以刻畫詞之間的相關(guān)性屏歹。