第十五課 奇異值分解

本講大綱:

  1. 潛在語義索引(Latent Semantic Indexing)
  2. 奇異值分解(Singular value decomposition )
  3. 獨立成分分析(Independent Component Analysis)

邏輯關系
LSI潛在語意索引是PCA主成分分析的一個應用,而SVD奇異值分解是LSI(PCA)的一個實現(xiàn)师痕。
ICA獨立成分分析是務監(jiān)督學習的一種胰坟。

1. 隱含語意索引 LSI

參考:http://blog.csdn.net/u011450885/article/details/46500901
是自然語言處理的一項技術泞辐,在自然語言處理中铛碑,最常見的兩類的分類問題分別是,將文本按主題歸類(比如將所有介紹亞運會的新聞歸到體育類)和將詞匯表中的字詞按意思歸類(比如將各種體育運動的名稱個歸成一類)涛菠。
分類的關鍵是計算相關性俗冻。我們首先對兩個文本計算出它們的內容詞迄薄,或者說實詞的向量讥蔽,然后求這兩個向量的夾角冶伞。當這兩個向量夾角為零時,新聞就相關步氏;當它們垂直或者說正交時响禽,新聞則無關。當然,夾角的余弦等同于向量的內積芋类。從理論上講隆嗅,這種算法非常好。但是計算時間特別長侯繁。
主成分分析中隱含語音索引的意思就是胖喳,通過降維的手段,將意義相同的詞映射到低維空間中的同一個維度上去巫击。

2. 奇異值分解 SVD

如果用一個矩陣來表示一百萬篇文章和五十萬詞的關聯(lián)性禀晓,每一行對應一篇文章,每一列對應一個詞:


這個矩陣的元素個數(shù)非常巨大坝锰。行數(shù)M=1,000,000,列數(shù)N=500,000帽芽。

奇異值分解就是把上面這樣一個大矩陣纤子,分解成三個小矩陣相乘,如下圖所示。這三個矩陣的元素總數(shù)遠遠小于上面的大矩陣A鹦赎。以此來降低存儲量和計算量埂伦。


三個矩陣有非常清楚的物理含義婚温。

  • 第一個矩陣X中的每一列表示一類主題篱竭,其中的每個非零元素表示一個主題與一篇文章的相關性,數(shù)值越大越相關。
  • 最后一個矩陣Y中的每一列表示100個關鍵詞,每個key word與500拱礁,000個詞的相關性钮热。
  • 中間的矩陣則表示文章主題和keyword之間的相關性。是對角矩陣宏蛉。
  • 總結來說就是從直接求文章和單詞的關聯(lián)性嗅义,轉化為求文章<->主題,主題<->關鍵詞博敬,關鍵詞<->單詞的相關性。
    因此,我們只要對關聯(lián)矩陣A進行一次奇異值分解,w 我們就可以同時完成了近義詞分類和文章的分類。(同時得到每類文章和每類詞的相關性)。

應用:個性化推薦、文本及web挖掘、降噪

擴展:奇異值分解的幾何意義
參考错负,推薦:http://blog.chinaunix.net/uid-20761674-id-4040274.html
矩陣線性變換的幾何解釋油航,很清楚:http://blog.sciencenet.cn/home.php?mod=space&uid=696950&do=blog&quickforward=1&id=699380

</br>

3. 獨立成分分析 ICA

3.1 基本概念

</br>
首先區(qū)分兩個概念:

  • 線性非相關镰踏,指協(xié)方差為0。描述兩個變量整體的數(shù)值表現(xiàn)究履,它們在整體上沒有出現(xiàn)數(shù)值一起改變跡象。但是未必兩個變量之間沒有相互影響爸黄。
  • 相互獨立描述更加本質乓梨,它要求兩個變量時時刻刻都的確不會相互影響焰轻,等價于f(x,y)=g(x)h(y)什乙。

與PCA主成分分析的區(qū)別

首先相同點是目的都是找到一個方向,即一個n維向量w智亮,使得線性組合wTx的某種特征最大化褒繁。

  • 主成分分析假設源信號間彼此非相關,獨立成分分析假設源信號間彼此獨立瓦呼。
  • 主成分分析認為主元之間彼此正交质和,樣本呈高斯分布减噪;獨立成分分析則要求樣本不呈高斯分布。

理解:經典雞尾酒會問題


其中s代表人饮戳,x代表話筒豪治,A是距離。x已知扯罐,s和A未知负拟,需要推出s。



</br>

3.2 ICA的算法

參考:http://blog.csdn.net/u012409883/article/details/17091383

  • 1歹河、預處理部分:
    (1)對X零均值處理
    (2)球化分解(白化)
    即:乘球化矩陣S掩浙,使Z=SX各行正交歸一,即ZZ’=I意義:消除原始各道數(shù)據(jù)間二階相關秸歧,以后只需要考慮高階矩量(因為獨立時各階互累積量為0)厨姚,使很多運算過程簡化。

  • 2键菱、核心算法部分:
    尋求解混矩陣U谬墙,使Y=UZ,Y各道數(shù)據(jù)盡可能獨立(獨立判據(jù)函數(shù)G)经备。
    注意:
    (1)拭抬、由于Y獨立,各行必正交侵蒙。且通常取U保持Y各行方差為1造虎,故U是正交變換。
    (2)蘑志、所有算法預處理部分相同累奈,以后我們都設輸入的為球化數(shù)據(jù)z贬派,尋找正交矩陣U,使Y=Uz獨立澎媒。由于獨立判據(jù)函數(shù)G的不同搞乏,以及步驟不同,有不同的獨立分量分析法戒努。

  • 3请敦、Fast ICA算法思路:屬于探查性投影追蹤 ICA
    目的:輸入球化數(shù)據(jù)z,經過正交陣U處理储玫,輸出Y=Uz
    (1)輸入球化數(shù)據(jù)z侍筛,經過正交陣某一行向量ui處理(投影),提取出某一獨立分量yi.
    (2)將此分量除去撒穷,按次序依次提取下去匣椰,得到所有的yi ,以及ui端礼。得到獨立的基向量U
    U=WX

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末禽笑,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蛤奥,更是在濱河造成了極大的恐慌佳镜,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件凡桥,死亡現(xiàn)場離奇詭異蟀伸,居然都是意外死亡,警方通過查閱死者的電腦和手機缅刽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進店門啊掏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人拷恨,你說我怎么就攤上這事脖律。” “怎么了腕侄?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵小泉,是天一觀的道長。 經常有香客問我冕杠,道長微姊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任分预,我火速辦了婚禮兢交,結果婚禮上,老公的妹妹穿的比我還像新娘笼痹。我一直安慰自己配喳,他們只是感情好酪穿,可當我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著晴裹,像睡著了一般被济。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上涧团,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天只磷,我揣著相機與錄音,去河邊找鬼泌绣。 笑死钮追,一個胖子當著我的面吹牛,可吹牛的內容都是我干的阿迈。 我是一名探鬼主播元媚,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼苗沧!你這毒婦竟也來了惠毁?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤崎页,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后腰埂,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體飒焦,經...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年屿笼,在試婚紗的時候發(fā)現(xiàn)自己被綠了牺荠。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡驴一,死狀恐怖休雌,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情肝断,我是刑警寧澤杈曲,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站胸懈,受9級特大地震影響担扑,放射性物質發(fā)生泄漏。R本人自食惡果不足惜趣钱,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一涌献、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧首有,春花似錦燕垃、人聲如沸枢劝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽您旁。三九已至,卻和暖如春印叁,著一層夾襖步出監(jiān)牢的瞬間被冒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工轮蜕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留昨悼,地道東北人。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓跃洛,卻偏偏與公主長得像率触,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子汇竭,可洞房花燭夜當晚...
    茶點故事閱讀 44,955評論 2 355

推薦閱讀更多精彩內容