本講大綱:
- 潛在語義索引(Latent Semantic Indexing)
- 奇異值分解(Singular value decomposition )
- 獨立成分分析(Independent Component Analysis)
邏輯關系
LSI潛在語意索引是PCA主成分分析的一個應用,而SVD奇異值分解是LSI(PCA)的一個實現(xiàn)师痕。
ICA獨立成分分析是務監(jiān)督學習的一種胰坟。
1. 隱含語意索引 LSI
參考:http://blog.csdn.net/u011450885/article/details/46500901
是自然語言處理的一項技術泞辐,在自然語言處理中铛碑,最常見的兩類的分類問題分別是,將文本按主題歸類(比如將所有介紹亞運會的新聞歸到體育類)和將詞匯表中的字詞按意思歸類(比如將各種體育運動的名稱個歸成一類)涛菠。
分類的關鍵是計算相關性俗冻。我們首先對兩個文本計算出它們的內容詞迄薄,或者說實詞的向量讥蔽,然后求這兩個向量的夾角冶伞。當這兩個向量夾角為零時,新聞就相關步氏;當它們垂直或者說正交時响禽,新聞則無關。當然,夾角的余弦等同于向量的內積芋类。從理論上講隆嗅,這種算法非常好。但是計算時間特別長侯繁。
在主成分分析中隱含語音索引的意思就是胖喳,通過降維的手段,將意義相同的詞映射到低維空間中的同一個維度上去巫击。
2. 奇異值分解 SVD
如果用一個矩陣來表示一百萬篇文章和五十萬詞的關聯(lián)性禀晓,每一行對應一篇文章,每一列對應一個詞:
這個矩陣的元素個數(shù)非常巨大坝锰。行數(shù)M=1,000,000,列數(shù)N=500,000帽芽。
奇異值分解就是把上面這樣一個大矩陣纤子,分解成三個小矩陣相乘,如下圖所示。這三個矩陣的元素總數(shù)遠遠小于上面的大矩陣A鹦赎。以此來降低存儲量和計算量埂伦。
三個矩陣有非常清楚的物理含義婚温。
- 第一個矩陣X中的每一列表示一類主題篱竭,其中的每個非零元素表示一個主題與一篇文章的相關性,數(shù)值越大越相關。
- 最后一個矩陣Y中的每一列表示100個關鍵詞,每個key word與500拱礁,000個詞的相關性钮热。
- 中間的矩陣則表示文章主題和keyword之間的相關性。是對角矩陣宏蛉。
- 總結來說就是從直接求文章和單詞的關聯(lián)性嗅义,轉化為求文章<->主題,主題<->關鍵詞博敬,關鍵詞<->單詞的相關性。
因此,我們只要對關聯(lián)矩陣A進行一次奇異值分解,w 我們就可以同時完成了近義詞分類和文章的分類。(同時得到每類文章和每類詞的相關性)。
應用:個性化推薦、文本及web挖掘、降噪
擴展:奇異值分解的幾何意義
參考错负,推薦:http://blog.chinaunix.net/uid-20761674-id-4040274.html
矩陣線性變換的幾何解釋油航,很清楚:http://blog.sciencenet.cn/home.php?mod=space&uid=696950&do=blog&quickforward=1&id=699380
</br>
3. 獨立成分分析 ICA
3.1 基本概念
</br>
首先區(qū)分兩個概念:
- 線性非相關镰踏,指協(xié)方差為0。描述兩個變量整體的數(shù)值表現(xiàn)究履,它們在整體上沒有出現(xiàn)數(shù)值一起改變跡象。但是未必兩個變量之間沒有相互影響爸黄。
- 相互獨立描述更加本質乓梨,它要求兩個變量時時刻刻都的確不會相互影響焰轻,等價于f(x,y)=g(x)h(y)什乙。
與PCA主成分分析的區(qū)別
首先相同點是目的都是找到一個方向,即一個n維向量w智亮,使得線性組合wTx的某種特征最大化褒繁。
- 主成分分析假設源信號間彼此非相關,獨立成分分析假設源信號間彼此獨立瓦呼。
- 主成分分析認為主元之間彼此正交质和,樣本呈高斯分布减噪;獨立成分分析則要求樣本不呈高斯分布。
理解:經典雞尾酒會問題
其中s代表人饮戳,x代表話筒豪治,A是距離。x已知扯罐,s和A未知负拟,需要推出s。
</br>
3.2 ICA的算法
參考:http://blog.csdn.net/u012409883/article/details/17091383
1歹河、預處理部分:
(1)對X零均值處理
(2)球化分解(白化)
即:乘球化矩陣S掩浙,使Z=SX各行正交歸一,即ZZ’=I意義:消除原始各道數(shù)據(jù)間二階相關秸歧,以后只需要考慮高階矩量(因為獨立時各階互累積量為0)厨姚,使很多運算過程簡化。2键菱、核心算法部分:
尋求解混矩陣U谬墙,使Y=UZ,Y各道數(shù)據(jù)盡可能獨立(獨立判據(jù)函數(shù)G)经备。
注意:
(1)拭抬、由于Y獨立,各行必正交侵蒙。且通常取U保持Y各行方差為1造虎,故U是正交變換。
(2)蘑志、所有算法預處理部分相同累奈,以后我們都設輸入的為球化數(shù)據(jù)z贬派,尋找正交矩陣U,使Y=Uz獨立澎媒。由于獨立判據(jù)函數(shù)G的不同搞乏,以及步驟不同,有不同的獨立分量分析法戒努。3请敦、Fast ICA算法思路:屬于探查性投影追蹤 ICA
目的:輸入球化數(shù)據(jù)z,經過正交陣U處理储玫,輸出Y=Uz
(1)輸入球化數(shù)據(jù)z侍筛,經過正交陣某一行向量ui處理(投影),提取出某一獨立分量yi.
(2)將此分量除去撒穷,按次序依次提取下去匣椰,得到所有的yi ,以及ui端礼。得到獨立的基向量U
U=WX