前言:最近一直在學Relief算法驹闰,屬于特征選擇的方面。而我想起了之前一直做的粗糙集撒会,基于粗糙集的特征選擇稱為屬性約簡嘹朗,趁著記憶里還有些存檔,來簡單介紹介紹下粗糙集吧诵肛!
系列文章的第一篇骡显,先不介紹復雜概念,簡單認識認識粗糙集
不定期更新中......
粗糙集理論簡介:
粗糙集是波蘭理工大學Z.pawlak教授提出用來研究不完整數據曾掂,不精確知識的表達、學習壁顶,歸納等的一套理論
它是一種新的處理模糊和不確定性問題的數學工具珠洗,已被廣泛應用于知識發(fā)現、機器學習若专、決策支持许蓖、模式識別、專家系統(tǒng)及歸納推理等領域调衰。
粗糙集理論的特點是能夠分析隱藏在數據中的事實膊爪,又不需要關于數據附加信息。
其主要思想是在保持分類能力不變的前提下嚎莉,通過知識約簡米酬,導出問題的決策或分類規(guī)則。
從數學的角度看趋箩,粗糙集是研究集合的赃额;從編程的角度看加派,粗糙集的研究對象是矩陣,只不過是一些特殊的矩陣;從人工智能的角度來看跳芳,粗糙集研究的是決策表芍锦。
粗糙集相關概念:
先給出一個例子,然后再介紹信息系統(tǒng)的一些概念
以病人的病例為例:
病人????????????? 頭疼??????????? 肌肉疼??????????? 體溫???????????????? 流感
??????????????? 是?????????????? 是??????????????????? 正常??????????????? 否
??????????????? 是???????? ? ? ? 是 ? ? ? ? ? ? ? ? ?? 高??????????????????? 是
??????????????? 是?????????????? 是??????????????????? 很高??????????????? 是
??????????????? 否?????????????? 是??????????????????? 正常??????????????? 否
??????????????? 否?????????????? 否??????????????????? 高??????????????????? 否
??????????????? 否?????????????? 是??????????????????? 很高??????????????? 是
?相關概念:
決策信息系統(tǒng)是一個四元組飞盆,其中 U 是非空有限對象集娄琉,稱為論域,A 是非空有限屬性集吓歇,
,
是其值孽水,屬性 a 的值域,
是一個信息函數照瘾。對于任意 a 屬于 A 匈棘,并且 x 屬于U,
如果,則 C 是條件屬性集析命,D 是決策屬性集主卫,
也被稱為決策表
概念有些抽象,下面我將結合例子先簡單解釋下一些基本概念:
在病例中鹃愤,有七行簇搅,五列
第一列是“病人”,在這一列软吐,除了第一行匙姜,還有六行校翔,即有六個元素或者對象
在信息系統(tǒng)中,這就是 U ,是非空有限對象集油狂,稱為論域。
用集合表示為:
;
那什么是屬性呢灸促,除了第一列之外的其他列都是屬性了
屬性有條件屬性和決策屬性瓦侮,決策屬性為最后一列
先介紹條件屬性:
設為頭疼屬性,
為肌肉疼屬性意述,
為體溫屬性
用集合表示為:
頭疼屬性:?
肌肉疼屬性:???
體溫屬性:????
決策屬性:
流感就是決策屬性了
我們現在已經對一個信息系統(tǒng)進行了簡單介紹
可以看出,在信息系統(tǒng)中恭理,有很多的對象拯辙,它們有著各種各樣的屬性
其中不同的對象有著不同或者相同的條件屬性,使得每個對象有著不同的特征颜价,這些條件屬性會影響到決策屬性涯保,決策屬性不同,將決定著這個信息系統(tǒng)能被分成幾類
顯然決策屬性值的不同直接受條件屬性的影響周伦,可以說每一個條件屬性都可能成為決定決策屬性值的潛在影響因素夕春。進而決定著信息系統(tǒng)中的對象會被劃分到哪一類去
但是,我們也知道专挪,影響事物的潛在因素會有很多及志,有些會顯著影響結果,有些會有一些影響寨腔,而有些因素卻是可有可無的
現在我們正處于大數據的時代速侈,每個人每天的很多行為會產生各種各樣的數據
這些數據通常很大,維度很高迫卢,里面會有商家感興趣的部分锌畸,但是數據維數太大了
面對這種“數據極其豐富而信息相對缺乏”的情況,如何從海量的數據中獲得有用的信息或者決定性因素會是我們很感興趣的方面
因此靖避,面對這樣一個含有大量信息的信息系統(tǒng),如何去發(fā)掘出什么是影響決策屬性值的關鍵屬性是很有必要的
而這些關鍵屬性就隱藏在這一列列的條件屬性中比默,有些屬性對決策屬性產生了重要的影響幻捏,而有些屬性就顯得可有可無了
而我們就是希望能夠找出這些對決策屬性有著重要影響的條件屬性
對于上面的病例,有經驗的醫(yī)生可能一眼就看出來什么是影響一個病人患流感的關鍵因素
而我們可能作為門外漢命咐,可以學習通過一些粗糙集的知識篡九,同樣也能發(fā)掘出這樣的關鍵因素!
之后我會逐漸介紹粗糙集的其他概念醋奠,等價類榛臼,正區(qū)域伊佃,負域,邊界域沛善,知識粒度航揉,如何進行約簡等等概念,最后會介紹一個基于知識粒度的屬性約簡算法金刁!