統(tǒng)計(jì)學(xué)習(xí)方法——修煉學(xué)習(xí)筆記17:潛在語(yǔ)義分析

潛在語(yǔ)義分析LSA:
是一種無(wú)監(jiān)督學(xué)習(xí)荔燎,主要用于文本的話題分析。
特點(diǎn):
通過(guò)矩陣分解發(fā)現(xiàn)文本與單詞直接的基于話題的語(yǔ)義關(guān)系米死。

文本信息處理中具垫,傳統(tǒng)的方法以單詞向量表示文本的語(yǔ)義內(nèi)容,以單詞向量空間的度量表示文本直接的語(yǔ)義相似度树绩。
潛在語(yǔ)義分析旨在解決這種方法不能準(zhǔn)確表示語(yǔ)義的問(wèn)題萨脑,試圖從大連的文本數(shù)據(jù)中發(fā)現(xiàn)潛在話題,以話題向量表示文本的語(yǔ)義內(nèi)容饺饭,以話題向量空間的度量更準(zhǔn)確地表示文本之間的語(yǔ)義相似度渤早。這也是話題分析的基本想法

潛在語(yǔ)義分析使用的是非概率的話題分析模型瘫俊。具體地鹊杖,
將文本集合表示為單詞-文本矩陣,對(duì)單詞-文本矩陣進(jìn)行奇異值分解扛芽,從而得到話題向量空間骂蓖,以及文本在話題向量空間的表示。

奇異值分解特點(diǎn)是分解的矩陣正交川尖。
非負(fù)矩陣分解NMF是另一種矩陣的因子分解方法登下,其特點(diǎn)是分解的矩陣非負(fù)。也用于話題分析空厌。

一庐船、單詞向量空間與話題向量空間

1、單詞向量空間

文本信息處理嘲更,比如文本信息檢索筐钟、文本數(shù)據(jù)挖掘的一個(gè)核心問(wèn)題是對(duì)文本的語(yǔ)義內(nèi)容進(jìn)行表示,并進(jìn)行文本之間的語(yǔ)義相似度計(jì)算赋朦。
最簡(jiǎn)單的方法是利用向量空間模型VSM篓冲,也就是單詞向量空間模型李破。

向量空間模型基本想法:
image.png
定義
image.png
image.png
  • 直觀上,一個(gè)單詞在一個(gè)文本中出現(xiàn)的頻數(shù)越高壹将,這個(gè)單詞在這個(gè)文本中的重要度就越高嗤攻。
  • 一個(gè)單詞在整個(gè)文本集合中出現(xiàn)的文本數(shù)越少,這個(gè)單詞就越能表示其所在文本的特點(diǎn)诽俯,重要度就越高妇菱。
  • 一個(gè)單詞在一個(gè)文本的TF-IDF是兩種重要度的積,表示綜合重要度暴区。
image.png
image.png

直觀上闯团,在兩個(gè)文本中共同出席的單詞越多,其語(yǔ)義內(nèi)容就越相近仙粱,對(duì)應(yīng)的單詞向量同不為零的維度就越多房交,內(nèi)積就越大(單詞向量元素的值都是非負(fù)的),表示兩個(gè)文本在語(yǔ)義內(nèi)容上越相似伐割。

單詞向量空間模型優(yōu)點(diǎn):
  • 模型簡(jiǎn)單
  • 計(jì)算效率高
局限性候味,內(nèi)積相似度未必能夠準(zhǔn)確表達(dá)兩個(gè)文本的語(yǔ)義相似度
  • 一詞多義性
  • 多詞一義性

2、話題向量空間

兩個(gè)文本的語(yǔ)義相似度可以提醒在兩者的話題相似度上隔心。
一個(gè)文本一般含有若干個(gè)話題白群。如果兩個(gè)文本的話題相似,那么兩者的語(yǔ)義應(yīng)該也相似硬霍。

話題可以由若干個(gè)語(yǔ)義相關(guān)的單詞表示川抡,同義詞可以表示同一個(gè)話題,而多義詞可以表示不同話題须尚。這樣基于話題的模型就可以解決上述基于單詞模型存在的問(wèn)題。

設(shè)想定義一種話題向量空間模型侍咱。給定一個(gè)文本耐床,用話題空間的一個(gè)向量表示該文本,該向量的每一分量對(duì)應(yīng)一個(gè)話題楔脯,其數(shù)值為該話題在該文本中出現(xiàn)的權(quán)值撩轰。
用兩個(gè)向量的內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積表示對(duì)應(yīng)的兩個(gè)文本的語(yǔ)義相似度。

注:?jiǎn)卧~向量空間模型與話題向量空間模型可以互為補(bǔ)充昧廷,現(xiàn)實(shí)中堪嫂,兩者可以同時(shí)使用。

(1)話題向量空間
定義:
image.png
(2)文本在話題向量空間的表示
image.png
(3)從單詞向量空間到話題向量空間的線性變換
image.png

二木柬、潛在語(yǔ)義分析算法

潛在語(yǔ)義分析利用矩陣奇異值分解皆串。
具體地,對(duì)單詞-文本矩陣進(jìn)行奇異值分解眉枕,將其左矩陣作為話題向量矩陣恶复,將其對(duì)角矩陣與右矩陣的乘積作為文本在話題向量空間的表示怜森。

1、矩陣奇異值分解算法

(1)單詞-文本矩陣
image.png
(2)截?cái)嗥娈愔捣纸?/h5>
image.png
(3)話題向量空間
image.png
(4)文本的話題空間表示
image.png

三谤牡、非負(fù)矩陣分解算法

非負(fù)矩陣分解也可以用于話題分析副硅。
對(duì)單詞-文本矩陣進(jìn)行非負(fù)矩陣分解,將其左矩陣作為話題向量空間翅萤,將其右矩陣作為文本在話題向量空間的表示恐疲。
通常,單詞-文本矩陣是非負(fù)的套么。

1培己、非負(fù)矩陣分解

image.png
image.png

2、潛在語(yǔ)義分析模型

image.png

3违诗、非負(fù)矩陣分解的形式化

非負(fù)矩陣分解可以形式化為最優(yōu)化問(wèn)題求解漱凝。

首先定義損失函數(shù)或代價(jià)函數(shù)。
第一種 損失函數(shù)是平方損失诸迟。
image.png
第二種損失函數(shù)是散度
image.png
定義最優(yōu)化問(wèn)題
image.png

4茸炒、算法

定理
image.png
非負(fù)矩陣分解的算法,第一個(gè)問(wèn)題(17.22)的算法阵苇,第二個(gè)問(wèn)題(17.23)算法類似
image.png
非負(fù)矩陣分解的迭代算法
image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末壁公,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子绅项,更是在濱河造成了極大的恐慌紊册,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件快耿,死亡現(xiàn)場(chǎng)離奇詭異囊陡,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)掀亥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)撞反,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人搪花,你說(shuō)我怎么就攤上這事遏片。” “怎么了撮竿?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵吮便,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我幢踏,道長(zhǎng)髓需,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任房蝉,我火速辦了婚禮授账,結(jié)果婚禮上枯跑,老公的妹妹穿的比我還像新娘。我一直安慰自己白热,他們只是感情好敛助,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著屋确,像睡著了一般纳击。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上攻臀,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天焕数,我揣著相機(jī)與錄音,去河邊找鬼刨啸。 笑死堡赔,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的设联。 我是一名探鬼主播善已,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼离例!你這毒婦竟也來(lái)了换团?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤宫蛆,失蹤者是張志新(化名)和其女友劉穎艘包,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體耀盗,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡想虎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了叛拷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片磷醋。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖胡诗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情淌友,我是刑警寧澤煌恢,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站震庭,受9級(jí)特大地震影響瑰抵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜器联,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一二汛、第九天 我趴在偏房一處隱蔽的房頂上張望婿崭。 院中可真熱鬧,春花似錦肴颊、人聲如沸氓栈。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)授瘦。三九已至,卻和暖如春竟宋,著一層夾襖步出監(jiān)牢的瞬間提完,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工丘侠, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留徒欣,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓蜗字,卻偏偏與公主長(zhǎng)得像打肝,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子秽澳,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 潛語(yǔ)義分析(LSA)是一種監(jiān)督學(xué)習(xí)方法闯睹,主要用于文本的話題分析,其特點(diǎn)是通過(guò)矩陣分解發(fā)現(xiàn)文本與單詞之間的基于話題的...
    rosyxiao閱讀 651評(píng)論 0 0
  • 潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)是一種無(wú)監(jiān)督學(xué)習(xí)方法担神,主要用于分本的話題分...
    單調(diào)不減閱讀 2,406評(píng)論 1 2
  • 前面的文章主要從理論的角度介紹了自然語(yǔ)言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)楼吃。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 13,881評(píng)論 2 64
  • 簡(jiǎn)單介紹 LSA和傳統(tǒng)向量空間模型(vector space model)一樣使用向量來(lái)表示詞(terms)和文檔...
    阡陌哥哥閱讀 30,166評(píng)論 6 17
  • 關(guān)鍵詞:自然語(yǔ)言處理(NLP)妄讯,詞向量(Word Vectors)孩锡,奇異值分解(Singular Value De...
    xiiao蝸牛閱讀 2,856評(píng)論 0 13