如果它的兩個(gè)狀態(tài)有相同的權(quán)重, 那么該二元變量是對(duì)稱的和二,也就是兩個(gè)取值 0或 1 沒(méi)有優(yōu)先權(quán)贫母。例如,屬性“性別”就是這樣的一個(gè)例子丰滑,它有兩個(gè)值:“女性”和“男性”顾犹。基于對(duì)稱二元變量的相似度稱為恒定的相似度褒墨,即當(dāng)一些或者全部二元變量編碼改變時(shí)炫刷,計(jì)算結(jié)果不會(huì)發(fā)生變化。
對(duì)恒定的相似度來(lái)說(shuō)郁妈,評(píng)價(jià)兩個(gè)對(duì)象 i和 j 之間相異度的最著名的系數(shù)是簡(jiǎn)單匹配系數(shù)SMC浑玛,其定義如下:
d(I,j) = (r+s) / (q+r+s+t) (8.9 p342 ?)
如果兩個(gè)狀態(tài)的輸出不是同樣重要,那么該二元變量是不對(duì)稱的噩咪。例如一個(gè)疾病檢查的肯定和否定的結(jié)果顾彰。根據(jù)慣例极阅,我們將比較重要的輸出結(jié)果,通常也是出現(xiàn)幾率較小的結(jié)果編碼為 1(例如涨享,HIV陽(yáng)性)筋搏,而將另一種結(jié)果編碼為 0(例如 HIV陰性)。給定兩個(gè)不對(duì)稱的二元變量厕隧,兩個(gè)都取值 1 的情況(正匹配)被認(rèn)為比兩個(gè)都取值 0 的情況(負(fù)匹配)更有意義奔脐。因此,這樣的二元變量經(jīng)常被認(rèn)為好像只有一個(gè)狀態(tài)吁讨∷栌基于這樣變量的相似度被稱為非恒定的相似度。對(duì)非恒定的相似度挡爵,最著名的評(píng)價(jià)系數(shù)是 Jaccard 系數(shù)竖般,在它的計(jì)算中,負(fù)匹配的數(shù)目被認(rèn)為是不重要的茶鹃,因此被忽略涣雕。 D(I,j) = (r+s) / (q+r+s) (8.10) 當(dāng)對(duì)稱的和非對(duì)稱的二元變量出現(xiàn)在同一個(gè)數(shù)據(jù)集中,在 8.2.4 節(jié)中描述的混合變量方法可以被應(yīng)用闭翩。
比如 購(gòu)買記錄就是非對(duì)稱二元數(shù)據(jù)挣郭,因?yàn)槲覀兏P(guān)注買的 item 而非沒(méi)有買的 item
但答題的 True 和 False 就是對(duì)稱二元數(shù)據(jù),因?yàn)?在考察兩題答案的關(guān)聯(lián)時(shí)疗韵, True 和 False 的出現(xiàn)是同樣重要的兑障。
參考:http://www.cnblogs.com/end/p/3330466.html
更詳細(xì)的介紹:http://blog.csdn.net/sjpz0124/article/details/45980361