潛在語(yǔ)義分析LSA:
是一種無(wú)監(jiān)督學(xué)習(xí)荔燎,主要用于文本的話題分析。
特點(diǎn):
通過(guò)矩陣分解發(fā)現(xiàn)文本與單詞直接的基于話題的語(yǔ)義關(guān)系米死。
文本信息處理中具垫,傳統(tǒng)的方法以單詞向量表示文本的語(yǔ)義內(nèi)容,以單詞向量空間的度量表示文本直接的語(yǔ)義相似度树绩。
潛在語(yǔ)義分析旨在解決這種方法不能準(zhǔn)確表示語(yǔ)義的問(wèn)題萨脑,試圖從大連的文本數(shù)據(jù)中發(fā)現(xiàn)潛在話題,以話題向量表示文本的語(yǔ)義內(nèi)容饺饭,以話題向量空間的度量更準(zhǔn)確地表示文本之間的語(yǔ)義相似度渤早。這也是話題分析的基本想法。
潛在語(yǔ)義分析使用的是非概率的話題分析模型瘫俊。具體地鹊杖,
將文本集合表示為單詞-文本矩陣,對(duì)單詞-文本矩陣進(jìn)行奇異值分解扛芽,從而得到話題向量空間骂蓖,以及文本在話題向量空間的表示。
奇異值分解特點(diǎn)是分解的矩陣正交川尖。
非負(fù)矩陣分解NMF是另一種矩陣的因子分解方法登下,其特點(diǎn)是分解的矩陣非負(fù)。也用于話題分析空厌。
一庐船、單詞向量空間與話題向量空間
1、單詞向量空間
文本信息處理嘲更,比如文本信息檢索筐钟、文本數(shù)據(jù)挖掘的一個(gè)核心問(wèn)題是對(duì)文本的語(yǔ)義內(nèi)容進(jìn)行表示,并進(jìn)行文本之間的語(yǔ)義相似度計(jì)算赋朦。
最簡(jiǎn)單的方法是利用向量空間模型VSM篓冲,也就是單詞向量空間模型李破。
向量空間模型基本想法:
定義
- 直觀上,一個(gè)單詞在一個(gè)文本中出現(xiàn)的頻數(shù)越高壹将,這個(gè)單詞在這個(gè)文本中的重要度就越高嗤攻。
- 一個(gè)單詞在整個(gè)文本集合中出現(xiàn)的文本數(shù)越少,這個(gè)單詞就越能表示其所在文本的特點(diǎn)诽俯,重要度就越高妇菱。
- 一個(gè)單詞在一個(gè)文本的TF-IDF是兩種重要度的積,表示綜合重要度暴区。
直觀上闯团,在兩個(gè)文本中共同出席的單詞越多,其語(yǔ)義內(nèi)容就越相近仙粱,對(duì)應(yīng)的單詞向量同不為零的維度就越多房交,內(nèi)積就越大(單詞向量元素的值都是非負(fù)的),表示兩個(gè)文本在語(yǔ)義內(nèi)容上越相似伐割。
單詞向量空間模型優(yōu)點(diǎn):
- 模型簡(jiǎn)單
- 計(jì)算效率高
局限性候味,內(nèi)積相似度未必能夠準(zhǔn)確表達(dá)兩個(gè)文本的語(yǔ)義相似度
- 一詞多義性
- 多詞一義性
2、話題向量空間
兩個(gè)文本的語(yǔ)義相似度可以提醒在兩者的話題相似度上隔心。
一個(gè)文本一般含有若干個(gè)話題白群。如果兩個(gè)文本的話題相似,那么兩者的語(yǔ)義應(yīng)該也相似硬霍。
話題可以由若干個(gè)語(yǔ)義相關(guān)的單詞表示川抡,同義詞可以表示同一個(gè)話題,而多義詞可以表示不同話題须尚。這樣基于話題的模型就可以解決上述基于單詞模型存在的問(wèn)題。
設(shè)想定義一種話題向量空間模型侍咱。給定一個(gè)文本耐床,用話題空間的一個(gè)向量表示該文本,該向量的每一分量對(duì)應(yīng)一個(gè)話題楔脯,其數(shù)值為該話題在該文本中出現(xiàn)的權(quán)值撩轰。
用兩個(gè)向量的內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積表示對(duì)應(yīng)的兩個(gè)文本的語(yǔ)義相似度。
注:?jiǎn)卧~向量空間模型與話題向量空間模型可以互為補(bǔ)充昧廷,現(xiàn)實(shí)中堪嫂,兩者可以同時(shí)使用。
(1)話題向量空間
定義:
(2)文本在話題向量空間的表示
(3)從單詞向量空間到話題向量空間的線性變換
二木柬、潛在語(yǔ)義分析算法
潛在語(yǔ)義分析利用矩陣奇異值分解皆串。
具體地,對(duì)單詞-文本矩陣進(jìn)行奇異值分解眉枕,將其左矩陣作為話題向量矩陣恶复,將其對(duì)角矩陣與右矩陣的乘積作為文本在話題向量空間的表示怜森。
1、矩陣奇異值分解算法
(1)單詞-文本矩陣
(2)截?cái)嗥娈愔捣纸?/h5>
(3)話題向量空間
(4)文本的話題空間表示
三谤牡、非負(fù)矩陣分解算法
非負(fù)矩陣分解也可以用于話題分析副硅。
對(duì)單詞-文本矩陣進(jìn)行非負(fù)矩陣分解,將其左矩陣作為話題向量空間翅萤,將其右矩陣作為文本在話題向量空間的表示恐疲。
通常,單詞-文本矩陣是非負(fù)的套么。
1培己、非負(fù)矩陣分解
2、潛在語(yǔ)義分析模型
3违诗、非負(fù)矩陣分解的形式化
非負(fù)矩陣分解可以形式化為最優(yōu)化問(wèn)題求解漱凝。