首先介紹聚類中的層次聚類算法坝茎。層次法又分為凝聚的層次聚類和分裂的層次聚類涤姊。
凝聚的方法:也稱自底向上的方法,首先將每個對象作為單獨的一個聚類嗤放,然后根據(jù)性質和規(guī)則相繼地合并相近的類思喊,直到所有的對象都合并為一個聚類中,或者滿足一定的終止條件次酌。經典的層次凝聚算法以AGNES算法為代表恨课,改進的層次凝聚算法主要以BIRCH,CURE,ROCK,CHAMELEON為代表。(后面詳細介紹)
分裂的方法:也稱自頂向下的方法岳服,正好與凝聚法相反剂公,首先將所有的對象都看作是一個聚類,然后在每一步中吊宋,上層類被分裂為下層更小的類纲辽,直到每個類只包含一個單獨的對象,或者也滿足一個終止條件為止璃搜。分裂算法將生成與凝聚方法完全相同的類集拖吼,只是生成過程的次序完全相反。經典的層次分裂算法以DIANA算法為代表腺劣。
那么要把這個圖分割成兩部分绿贞,如上的虛線就是一種切割方式,這個時候可以看到這種切割下消耗的邊的權值為3+4=7吧橘原,當然籍铁,切割的方式很多種涡上,不同的切割方式自然對應不同的切割邊權值,而最大流最小割就是找到一種切割方式使得切割的邊的權值之和最小拒名。
對稱的二元變量和不對稱的二元變量之間的區(qū)別是什么吩愧?
如果一個樣本的屬性都是對稱性的二元變量?
如果它的兩個狀態(tài)有相同的權重, 那么該二元變量是對稱的增显,也就是兩個取值 0或 1 沒有優(yōu)先權雁佳。例如,屬性“性別”就是這樣的一個例子同云,它有兩個值:“女性”和“男性”糖权。基于對稱二元變量的相似度稱為恒定的相似度炸站,即當一些或者全部二元變量編碼改變時星澳,計算結果不會發(fā)生變化。對恒定的相似度來說旱易,評價兩個對象 i和 j 之間相異度的最著名的系數(shù)是簡單匹配系數(shù)禁偎,其定義如下:
d(I,j) = (r+s) / (q+r+s+t)?????????????????? (8.9?? p342 ?)這個是非相似性吧。
如果兩個狀態(tài)的輸出不是同樣重要阀坏,那么該二元變量是不對稱的如暖。例如一個疾病檢查的肯定和否定的結果。根據(jù)慣例忌堂,我們將比較重要的輸出結果盒至,通常也是出現(xiàn)幾率較小的結果編碼為 1(例如,HIV陽性)浸船,而將另一種結果編碼為 0(例如 HIV陰性)妄迁。給定兩個不對稱的二元變量,兩個都取值 1 的情況(正匹配)被認為比兩個都取值 0 的情況(負匹配)更有意義李命。因此登淘,這樣的二元變量經常被認為好像只有一個狀態(tài)》庾郑基于這樣變量的相似度被稱為非恒定的相似度黔州。對非恒定的相似度,最著名的評價系數(shù)是 Jaccard 系數(shù)阔籽,在它的計算中流妻,負匹配的數(shù)目被認為是不重要的,因此被忽略笆制。
D(I,j) = (r+s) / (q+r+s)???????? (8.10)
當對稱的和非對稱的二元變量出現(xiàn)在同一個數(shù)據(jù)集中绅这,在 8.2.4 節(jié)中描述的混合變量方法可以
被應用。