機器學習筆記14: 獨立成分分析

這一節(jié)的主題是獨立成分分析(Independent Components Analysis, ICA)。和PCA的降維思路不同,ICA主要解決的是找到數(shù)據(jù)背后的“獨立”成分。我們從一個雞尾酒會問題開始說起戳稽。

在一個雞尾酒會中假設有n個人同時說話,屋子里的n個麥克風記錄著這n個人說話時疊加的聲音痹仙。由于每個麥克風離人的距離不同是尔,它所采集到的聲音是不同的,但都是這n個人聲音的一種組合开仰。那么問題是根據(jù)這些采集到的聲音拟枚,我們是否可以還原每個人說話的聲音?

該問題可以形式化地描述為众弓,從n個獨立的數(shù)據(jù)源s ∈ Rn中我們觀察到了疊加數(shù)據(jù)x恩溅,其中x可以表示為:

其中A是一個未知的方陣,我們稱為混合矩陣(mixing matrix)谓娃。我們觀察到的數(shù)據(jù)是{x(i); i=1,...,n}脚乡,我們的目標是求出源數(shù)據(jù){s(i); i=1,...,n}。

在雞尾酒會問題中滨达,s(i)是個n維向量奶稠,sj(i)表示第j個人在i時刻發(fā)出的聲音。同樣捡遍,x(i)也是個n維向量锌订,xj(i)表示第j個麥克風在i時刻采集到的聲音。

令W = A-1表示解析矩陣(unmixing matrix)画株,我們只需要求出W辆飘,然后根據(jù)s(i) = Wx(i)就能求出s(i)。為了簡化描述谓传,我們用wiT表示W(wǎng)的第i行蜈项,因此W可表示為:

ICA的不確定性

如果我們對源數(shù)據(jù)和混合矩陣沒有任何先驗知識的話,在求混合矩陣的過程中會存在不確定性良拼。

第一個不確定性來自于源數(shù)據(jù)的順序战得。當源數(shù)據(jù)的順序交換后,對混合矩陣的列之間進行對應的交換能夠保證生成同樣的數(shù)據(jù)庸推。

第二個不確定性來自于對源數(shù)據(jù)的縮放常侦。假設我們用2A來替代A浇冰,0.5s(i)替代s(i),那么x(i) = 2A · 0.5s結(jié)果不變聋亡,因而s(i)和A的值不是唯一確定的肘习。

第三個不確定性來自于源數(shù)據(jù)不能是高斯分布的。如果源數(shù)據(jù)s(i)是高斯分布的坡倔,我們可以證明混合矩陣A不是唯一的漂佩。證明如下:

令R是任意正交矩陣(orthogonal matrix),因而RRT = I罪塔。令A' = AR并將A替換成A'投蝉,那么x' = A's,并且x'也是高斯分布的征堪,其均值為0瘩缆,方差為E[x'(x')T] = E[A'ssT(A')T] = E[ARssT(AR)T] = ARRTAT = AAT。也就是說佃蚜,無論是A還是A'庸娱,我們觀察到的數(shù)據(jù)都是服從N(0, AAT)的高斯分布,因此我們沒法區(qū)分混合矩陣究竟是A還是A'谐算。

密度函數(shù)和線性變換

在推導ICA算法之前熟尉,我們先討論線性變換后的密度函數(shù)。

假設隨機變量s的概率密度函數(shù)為ps(s)洲脂,另一個隨機變量x = As斤儿,其中A是一個可逆的方陣,x的概率密度函數(shù)是px腮考,那么px為:

其中W = A-1雇毫。

ICA算法

現(xiàn)在我們正式推導ICA算法,這個算法主要歸功于Bell和Sejnowski踩蔚,但我們這里使用最大似然估計法來進行解釋棚放。算法原始的版本用了一種更為復雜的方法,但對于目前我們理解ICA算法不是必要的馅闽。

假設每個源數(shù)據(jù)s(i)的概率密度函數(shù)是ps飘蚯,那么它們的聯(lián)合分布為:

這里我們假設每個源數(shù)據(jù)都是互相獨立的。再根據(jù)上一節(jié)的公式福也,由于有x = As這樣的線性變換局骤,所以:

前面提過如果沒有任何先驗知識,W和s是無法唯一確定的暴凑,因此我們這里對s的概率密度函數(shù)做一定假設峦甩,同時根據(jù)前面討論ps(s)不能是高斯分布的。我們知道密度函數(shù)可以通過對累計分布函數(shù)求導獲得,而累計分布函數(shù)必須是在0到1之間單調(diào)遞增的函數(shù)凯傲,因此我們可以選取sigmoid函數(shù)作為默認的累計分布函數(shù)犬辰。所以ps(s) = g'(s),其中g(shù)(s) = 1 / (1 + e-s)冰单。

確定了ps(s)后幌缝,W是模型里唯一需要求解的參數(shù)了。給定訓練數(shù)據(jù)集{x(i); i=1,...,n}诫欠,通過最大似然估計法可得:

對l(W)求導并且根據(jù)?W|W| = |W|(W-1)T的事實涵卵,我們可得:

其中α是學習率。

算法收斂后即可得到參數(shù)W荒叼,然后通過s(i) = Wx(i)就能還原出源數(shù)據(jù)了轿偎。

總結(jié)

  • 獨立成分分析(ICA)算法可以用于求解類似雞尾酒會類型的問題,在已知疊加數(shù)據(jù)的情況下還原出源數(shù)據(jù)

參考資料

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末被廓,一起剝皮案震驚了整個濱河市贴硫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伊者,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件间护,死亡現(xiàn)場離奇詭異亦渗,居然都是意外死亡,警方通過查閱死者的電腦和手機汁尺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進店門法精,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人痴突,你說我怎么就攤上這事搂蜓。” “怎么了辽装?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵帮碰,是天一觀的道長。 經(jīng)常有香客問我拾积,道長殉挽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任拓巧,我火速辦了婚禮斯碌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘肛度。我一直安慰自己傻唾,他們只是感情好,可當我...
    茶點故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布承耿。 她就那樣靜靜地躺著冠骄,像睡著了一般伪煤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上猴抹,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天带族,我揣著相機與錄音,去河邊找鬼蟀给。 笑死蝙砌,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的跋理。 我是一名探鬼主播择克,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼前普!你這毒婦竟也來了肚邢?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤拭卿,失蹤者是張志新(化名)和其女友劉穎骡湖,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體峻厚,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡响蕴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了惠桃。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片浦夷。...
    茶點故事閱讀 39,696評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖辜王,靈堂內(nèi)的尸體忽然破棺而出劈狐,到底是詐尸還是另有隱情,我是刑警寧澤呐馆,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布肥缔,位于F島的核電站,受9級特大地震影響汹来,放射性物質(zhì)發(fā)生泄漏辫继。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一俗慈、第九天 我趴在偏房一處隱蔽的房頂上張望姑宽。 院中可真熱鬧,春花似錦闺阱、人聲如沸炮车。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瘦穆。三九已至纪隙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間扛或,已是汗流浹背绵咱。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留熙兔,地道東北人悲伶。 一個月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像住涉,于是被迫代替她去往敵國和親麸锉。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容