轉(zhuǎn)載:百度文庫(kù)
一種對(duì)集合A的劃分就對(duì)應(yīng)著關(guān)于A中元素的一個(gè)知識(shí)
面對(duì)日益增長(zhǎng)的數(shù)據(jù)庫(kù)着裹,人們將如何從這些浩瀚的數(shù)據(jù)中找出有用的知識(shí)?我們?nèi)绾螌⑺鶎W(xué)到的知識(shí)去粗取精海蔽?什么是對(duì)事物的粗線條描述假勿?什么是細(xì)線條描述?糙集合論回答了上面的這些問(wèn)題滋恬。
要想了解粗糙集合論的思想幼苛,我們先要了解一下什么叫做知識(shí)超全?假設(shè)有8 個(gè)積木構(gòu)成了一個(gè)集合A,我們記:A={x1,x2,x3,x4,x5,x6,x7,x8} 穷绵,每個(gè)積木塊都有顏色屬性轿塔,按照顏色的不同,我們能夠把這堆積木分成R1={紅仲墨,黃勾缭,藍(lán)} 三個(gè)大類,那么:
- 紅顏色的積木構(gòu)成集合X1={x1,x2,x6}
- 黃顏色的積木構(gòu)成集合X2={x3,x4}
- 藍(lán)顏色的積木構(gòu)成集合X3={x5,x7,x8}
按照顏色這個(gè)屬性我們就把積木集合A進(jìn)行了一個(gè)劃分( 所謂A的劃分就是指對(duì)于A中的任意一個(gè)元素必然屬于且僅屬于一個(gè)分類) 目养,那么我們就說(shuō)顏色屬性就是一種知識(shí)俩由。在這個(gè)例子中我們不難看到, 一種對(duì)集合A 的劃分就對(duì)應(yīng)著關(guān)于A 中元素的一個(gè)知識(shí)癌蚁,假如還有其他的屬性幻梯,比如還有形狀R2={三角, 方塊, 圓形} ,大小R3={大, 中, 小} 努释,這樣加上R1屬性對(duì)A 構(gòu)成的劃分分別為:
* A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}}(顏色分類)
* A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形狀分類)
* A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分類)
上面這些所有的分類合在一起就形成了一個(gè)基本的知識(shí)庫(kù)碘梢。那么這個(gè)基本知識(shí)庫(kù)能表示什么概念呢?除了紅的{x1,x2,x6} 伐蒂、大的{x1,x2,x5} 煞躬、三角形的{x1,x2} 這樣的概念以外,還可以表達(dá)例如:
* 大的且是三角形的{x1,x2,x5} ∩ {x1,x2}={x1,x2}
* 大三角{x1,x2,x5} ∩{x1,x2}={x1,x2}
* 藍(lán)色的小的圓形({x5,x7,x8} ∩{x3,x4,x7} ∩{x3,x4,x6,x7}={x7}
* 藍(lán)色的或者中的積木{x5,x7,x8} ∪{x6,x8}={x5,x6,x7,x8}
而類似這樣的概念可以通過(guò)求交運(yùn)算得到饿自,比如X1與Y1的交就表示紅色的三角形汰翠。所有的這些能夠用交、并表示的概念以及加上上面的三個(gè)基本知識(shí)(A/R1,A/R2.A/R3) 一起就構(gòu)成了一個(gè)知識(shí)系統(tǒng)記為R=R1∩R2∩R3昭雌,它所決定的所有知識(shí)是A/R={{x1,x2},{x3,x4},{x5},{x6},{x7},{x8}}(注意:原文中,x3和x4是分開的健田,應(yīng)該是作者手誤)以及A/R 中集合的并烛卧。
下面考慮近似這個(gè)概念。假設(shè)給定了一個(gè)A上的子集合X={x2,x5,x7} 妓局,那么用我們的知識(shí)庫(kù)中的知識(shí)應(yīng)該怎樣描述它呢总放?紅色的三角? **** 的大圓好爬?都不是局雄,無(wú)論是單屬性知識(shí)還是由幾個(gè)知識(shí)進(jìn)行交、并運(yùn)算合成的知識(shí)存炮,都不能得到這個(gè)新的集合X炬搭,于是我們只好用我們已有的知識(shí)去近似它蜈漓。也就是在所有的現(xiàn)有知識(shí)里面找出跟他最像的兩個(gè)一個(gè)作為下近似,一個(gè)作為上近似宫盔。于是我們選擇了“藍(lán)色的大方塊或者藍(lán)色的小圓形” 這個(gè)概念:{x5,x7}作為X的下近似融虽。選擇“三角形或者蘭色的”{x1,x2,x5,x7} 作為它的上近似,值得注意的是:
- 下近似集是在那些所有的包含于X 的知識(shí)庫(kù)中的集合中求并得到的(包含在X內(nèi)的最大可定義集)
- 上近似則是將那些包含X的知識(shí)庫(kù)中的集合求并得到的(包含X的最小可定義集)
一般的灼芭,我們可以用下面的圖來(lái)表示上有额、下近似的概念。
這其中藍(lán)色曲線圍的區(qū)域是X的區(qū)域彼绷,紫色曲線圍的部分是內(nèi)部參考消息巍佑,是下近似,紅色曲線圍的內(nèi)部部分就是上近似集寄悯。其中各個(gè)小方塊可以被看成是論域上的知識(shí)系統(tǒng)所構(gòu)成的所有劃分萤衰。整個(gè)粗集理論的核心就是上面說(shuō)的有關(guān)知識(shí)、集合的劃分热某、近似集合等等概念腻菇。下面我們討論一下關(guān)于粗糙集在數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘的應(yīng)用問(wèn)題∥舨觯考慮一個(gè)數(shù)據(jù)庫(kù)中的二維表如下:
可以看出筹吐,這個(gè)表就是上面的那個(gè)例子的二維表格體現(xiàn),而最后一列是我們的決策屬性秘遏,也就是說(shuō)評(píng)價(jià)什么樣的積木穩(wěn)定丘薛。這個(gè)表中的每一行表示了類似這樣的信息:紅色的大三角積木穩(wěn)定, **** 的小圓形不穩(wěn)定等等邦危。我們可以把所有的記錄看成是論域A={x1,x2,x3,x4,x5,x6,x7,x8} 洋侨,任意一個(gè)列表示一個(gè)屬性構(gòu)成了對(duì)論域的元素上的一個(gè)劃分,在劃分的每一個(gè)類中都具有相同的屬性倦蚪。而屬性可以分成兩大類希坚,一類叫做條件屬性:顏色、形狀陵且、大小都是裁僧,另一類叫做決策屬性:最后一列的是否穩(wěn)定?下面我們考慮慕购,對(duì)于決策屬性來(lái)說(shuō)是否所有的條件屬性都是有用的呢聊疲?考慮所有決策屬性是“穩(wěn)定”的集合{x1,x2,x5} ,它在知識(shí)系統(tǒng)A/R 中的上沪悲、下近似都是{x1,x2,x5} 本身获洲,“不穩(wěn)定”的集合{x3,x4,x6,x7,x8} ,在知識(shí)系統(tǒng)A/R 中的上殿如、下近似也都是{x3,x4,x6,x7,x8} 它本身贡珊。說(shuō)明該知識(shí)庫(kù)能夠?qū)@個(gè)概念進(jìn)行很好的描述最爬。
下面考慮是否所有的基本知識(shí):顏色、形狀飞崖、大小都是必要的烂叔?如果我們把這個(gè)集合在知識(shí)系統(tǒng)中去掉顏色這個(gè)基本知識(shí),那么知識(shí)系統(tǒng)變成
A/(R-R1)={{x1,x2},{x3,x4,x7},{x5},{x6},{x8}} 以及這些子集的并集固歪。如果用這個(gè)新的知識(shí)系統(tǒng)表達(dá)“穩(wěn)定”概念得到上下近似仍舊都是: {x1,x2,x5} 蒜鸡,“不穩(wěn)定”概念的上下近似也還是{x3,x4,x6,x7,x8} ,由此看出去掉顏色屬性我們表達(dá)穩(wěn)定性的知識(shí)不會(huì)有變化牢裳,所以說(shuō)顏色屬性是多余的可以刪除逢防。
如果再考慮是否能去掉大小屬性呢?這個(gè)時(shí)候知識(shí)系統(tǒng)就變?yōu)椋篈/(R-R1-R3)=A/R2={{x1,x2},{x5,x8},{x3,x4,x6,x7}} 蒲讯。同樣考慮“穩(wěn)定”在知識(shí)系統(tǒng)A/R2 中的上下近似分別為:{x1,x2} 和{x1,x2,x5,x8} 忘朝,已經(jīng)和原來(lái)知識(shí)系統(tǒng)中的上下近似不一樣了, 同樣考慮“不穩(wěn)定” 的近似表示也變化了判帮,所以刪除屬性“大小”是對(duì)知識(shí)表示有影響的故而不能去掉局嘁。同樣的討論對(duì)于“形狀”屬性也一樣,它是不能去掉的晦墙。
最后我們得到化簡(jiǎn)后的知識(shí)庫(kù)R2,R3悦昵,從而能得到下面的決策規(guī)則:大三角-> 穩(wěn)定,大方塊-> 穩(wěn)定晌畅,小圓-> 不穩(wěn)定但指,中圓-> 不穩(wěn)定,中方塊-> 不穩(wěn)定抗楔,利用粗集的理論還可以對(duì)這些規(guī)則進(jìn)一步化簡(jiǎn)得到:大-> 穩(wěn)定棋凳,圓-> 不穩(wěn)定,中方塊-> 不穩(wěn)定连躏。這就是上面這個(gè)數(shù)據(jù)表所包含的真正有用的知識(shí)剩岳,而這些知識(shí)都是從數(shù)據(jù)庫(kù)有粗糙集方法自動(dòng)學(xué)習(xí)得到的。
因此入热,粗糙集是數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘的有效方法卢肃。從上面這個(gè)例子中我們不難看出,實(shí)際上我們只要把這個(gè)數(shù)據(jù)庫(kù)輸入進(jìn)粗糙集運(yùn)算系統(tǒng)才顿,而不用提供任何先驗(yàn)的知識(shí),粗糙集算法就能自動(dòng)學(xué)習(xí)出知識(shí)來(lái)尤蒿,這正是它能夠廣泛應(yīng)用的根源所在郑气。而在模糊集、可拓集等集合論中我們還要事先給定隸屬函數(shù)腰池。目前尾组,粗糙集理論已經(jīng)廣泛的應(yīng)用于知識(shí)發(fā)現(xiàn)忙芒、數(shù)據(jù)挖掘、智能決策讳侨、電子控制等多個(gè)領(lǐng)域呵萨。