前段時間看了一篇關(guān)于DCA的綜述码荔,上周將其內(nèi)容總結(jié)為一篇PPT講與他人聽漩勤,總感覺DCA是一個有趣的東西,其背后的原理也不是太難理解缩搅,所以就把PPT里的內(nèi)容放到這里越败,希望有興趣的人也能看一看。
這里先簡單的說一下背景知識硼瓣。首先這是個什么東西究飞?DCA(Direct Coupling Analysis),也叫直接耦合分析。假設(shè)有M個樣本亿傅,每個樣本可以用一個長度為L的序列(或向量)表示霉祸,這個序列上的每一點(diǎn)都是從一個大小為q的有限空間中取值,于是乎序列中所有成對的位點(diǎn)之間的關(guān)聯(lián)關(guān)系就組成了一個復(fù)雜的關(guān)聯(lián)網(wǎng)絡(luò)袱蜡。DCA做的一件事就是從大量樣本序列中所有成對的位點(diǎn)之間的關(guān)聯(lián)里找出那些直接的關(guān)聯(lián)丝蹭,于是我們可以篩選出那些表現(xiàn)出強(qiáng)直接關(guān)聯(lián)的因素并對其進(jìn)行后續(xù)的分析。DCA可以用來干嘛坪蚁,除了用來做蛋白質(zhì)分子結(jié)構(gòu)預(yù)測奔穿,還可以用來解耦復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,社交網(wǎng)絡(luò)分析敏晤,以及推薦系統(tǒng)等等贱田。
下面就是PPT的內(nèi)容了,其中有些下面會附上一些簡單的說明嘴脾。PDF格式可以從這里下載男摧。
我們經(jīng)常需要知道個體間差異的大小,進(jìn)而評價個體的相似性和類別译打。而如果要定量的表示相似性耗拓,就需要使用距離這一種概念。距離可以采用不同的度量方法奏司,一般對于一個距離函數(shù)d(x,y)乔询,需要滿足上面的幾個準(zhǔn)則。
閔可夫斯基距離比較直觀韵洋,但是它與數(shù)據(jù)的分布無關(guān)竿刁,如果 x 方向的幅值遠(yuǎn)遠(yuǎn)大于 y 方向的值,就會過度放大 x 維度的作用搪缨。所以還需要對數(shù)據(jù)進(jìn)行 z-transform 處理食拜,即減去均值与境,除以標(biāo)準(zhǔn)差浸赫。
馬氏距離利用 Cholesky transformation 消除不同維度之間的相關(guān)性和尺度不同秒拔。
內(nèi)積距離的結(jié)果沒有界限洞焙,余弦相似度受到向量的平移影響,而Pearson相關(guān)系數(shù)則能保持平移不變性和尺度不變性惠窄。
兩個隨機(jī)變量X武花,Y的聯(lián)合分布,形成聯(lián)合熵短纵。在隨機(jī)變量X發(fā)生的前提下,隨機(jī)變量Y發(fā)生所新帶來的熵定義為Y的條件熵僵控,用H(Y|X)表示香到,用來衡量在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性。
在一定程度上,相對熵可以度量兩個概率分布之間的距離悠就。兩個隨機(jī)變量X千绪,Y的互信息定義為X,Y的聯(lián)合分布和各自獨(dú)立分布乘積的相對熵梗脾。
其主要思想是荸型,在只掌握關(guān)于未知分布的部分知識時,應(yīng)該選取符合這些知識但熵值最大的概率分布炸茧。最大熵原理的實(shí)質(zhì)就是瑞妇,在已知部分知識的前提下, 關(guān)于未知分布最合理的推斷就是符合已知知識最不確定或最隨機(jī)的推斷梭冠,這是我們可以作出的唯一不偏不倚的選擇辕狰,任何其它的選擇都意味著我們增加了其它的約束和假設(shè),這些約束 和假設(shè)根據(jù)我們掌握的信息無法作出控漠。