數(shù)據(jù)挖掘

數(shù)據(jù)立方體,最小內存計算

層次聚類

首先介紹聚類中的層次聚類算法坝茎。層次法又分為凝聚的層次聚類和分裂的層次聚類涤姊。

凝聚的方法:也稱自底向上的方法,首先將每個對象作為單獨的一個聚類嗤放,然后根據(jù)性質和規(guī)則相繼地合并相近的類思喊,直到所有的對象都合并為一個聚類中,或者滿足一定的終止條件次酌。經典的層次凝聚算法以AGNES算法為代表恨课,改進的層次凝聚算法主要以BIRCH,CURE,ROCK,CHAMELEON為代表。(后面詳細介紹)

分裂的方法:也稱自頂向下的方法岳服,正好與凝聚法相反剂公,首先將所有的對象都看作是一個聚類,然后在每一步中吊宋,上層類被分裂為下層更小的類纲辽,直到每個類只包含一個單獨的對象,或者也滿足一個終止條件為止璃搜。分裂算法將生成與凝聚方法完全相同的類集拖吼,只是生成過程的次序完全相反。經典的層次分裂算法以DIANA算法為代表腺劣。


那么要把這個圖分割成兩部分绿贞,如上的虛線就是一種切割方式,這個時候可以看到這種切割下消耗的邊的權值為3+4=7吧橘原,當然籍铁,切割的方式很多種涡上,不同的切割方式自然對應不同的切割邊權值,而最大流最小割就是找到一種切割方式使得切割的邊的權值之和最小拒名。

對稱的二元變量和不對稱的二元變量之間的區(qū)別是什么吩愧?


如果一個樣本的屬性都是對稱性的二元變量?

如果它的兩個狀態(tài)有相同的權重, 那么該二元變量是對稱的增显,也就是兩個取值 0或 1 沒有優(yōu)先權雁佳。例如,屬性“性別”就是這樣的一個例子同云,它有兩個值:“女性”和“男性”糖权。基于對稱二元變量的相似度稱為恒定的相似度炸站,即當一些或者全部二元變量編碼改變時星澳,計算結果不會發(fā)生變化。對恒定的相似度來說旱易,評價兩個對象 i和 j 之間相異度的最著名的系數(shù)是簡單匹配系數(shù)禁偎,其定義如下:

d(I,j) = (r+s) / (q+r+s+t)?????????????????? (8.9?? p342 ?)這個是非相似性吧。

如果兩個狀態(tài)的輸出不是同樣重要阀坏,那么該二元變量是不對稱的如暖。例如一個疾病檢查的肯定和否定的結果。根據(jù)慣例忌堂,我們將比較重要的輸出結果盒至,通常也是出現(xiàn)幾率較小的結果編碼為 1(例如,HIV陽性)浸船,而將另一種結果編碼為 0(例如 HIV陰性)妄迁。給定兩個不對稱的二元變量,兩個都取值 1 的情況(正匹配)被認為比兩個都取值 0 的情況(負匹配)更有意義李命。因此登淘,這樣的二元變量經常被認為好像只有一個狀態(tài)》庾郑基于這樣變量的相似度被稱為非恒定的相似度黔州。對非恒定的相似度,最著名的評價系數(shù)是 Jaccard 系數(shù)阔籽,在它的計算中流妻,負匹配的數(shù)目被認為是不重要的,因此被忽略笆制。

D(I,j) = (r+s) / (q+r+s)???????? (8.10)

當對稱的和非對稱的二元變量出現(xiàn)在同一個數(shù)據(jù)集中绅这,在 8.2.4 節(jié)中描述的混合變量方法可以

被應用。

最小割

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末在辆,一起剝皮案震驚了整個濱河市证薇,隨后出現(xiàn)的幾起案子度苔,更是在濱河造成了極大的恐慌,老刑警劉巖浑度,帶你破解...
    沈念sama閱讀 218,036評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件寇窑,死亡現(xiàn)場離奇詭異,居然都是意外死亡箩张,警方通過查閱死者的電腦和手機甩骏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來先慷,“玉大人饮笛,你說我怎么就攤上這事÷畚酰” “怎么了缎浇?”我有些...
    開封第一講書人閱讀 164,411評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長赴肚。 經常有香客問我,道長二蓝,這世上最難降的妖魔是什么誉券? 我笑而不...
    開封第一講書人閱讀 58,622評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮刊愚,結果婚禮上踊跟,老公的妹妹穿的比我還像新娘。我一直安慰自己鸥诽,他們只是感情好商玫,可當我...
    茶點故事閱讀 67,661評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著牡借,像睡著了一般拳昌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上钠龙,一...
    開封第一講書人閱讀 51,521評論 1 304
  • 那天炬藤,我揣著相機與錄音,去河邊找鬼碴里。 笑死沈矿,一個胖子當著我的面吹牛,可吹牛的內容都是我干的咬腋。 我是一名探鬼主播羹膳,決...
    沈念sama閱讀 40,288評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼根竿!你這毒婦竟也來了陵像?” 一聲冷哼從身側響起就珠,我...
    開封第一講書人閱讀 39,200評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蠢壹,沒想到半個月后嗓违,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,644評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡图贸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,837評論 3 336
  • 正文 我和宋清朗相戀三年蹂季,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片疏日。...
    茶點故事閱讀 39,953評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡偿洁,死狀恐怖,靈堂內的尸體忽然破棺而出沟优,到底是詐尸還是另有隱情涕滋,我是刑警寧澤,帶...
    沈念sama閱讀 35,673評論 5 346
  • 正文 年R本政府宣布挠阁,位于F島的核電站宾肺,受9級特大地震影響,放射性物質發(fā)生泄漏侵俗。R本人自食惡果不足惜锨用,卻給世界環(huán)境...
    茶點故事閱讀 41,281評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望隘谣。 院中可真熱鬧增拥,春花似錦、人聲如沸寻歧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽码泛。三九已至猾封,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間弟晚,已是汗流浹背忘衍。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留卿城,地道東北人枚钓。 一個月前我還...
    沈念sama閱讀 48,119評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像瑟押,于是被迫代替她去往敵國和親搀捷。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,901評論 2 355

推薦閱讀更多精彩內容