什么是粗糙集(一)

前言:最近一直在學Relief算法驹闰,屬于特征選擇的方面。而我想起了之前一直做的粗糙集撒会,基于粗糙集的特征選擇稱為屬性約簡嘹朗,趁著記憶里還有些存檔,來簡單介紹介紹下粗糙集吧诵肛!

系列文章的第一篇骡显,先不介紹復雜概念,簡單認識認識粗糙集


不定期更新中......



粗糙集理論簡介:

粗糙集是波蘭理工大學Z.pawlak教授提出用來研究不完整數據曾掂,不精確知識的表達、學習壁顶,歸納等的一套理論


它是一種新的處理模糊和不確定性問題的數學工具珠洗,已被廣泛應用于知識發(fā)現、機器學習若专、決策支持许蓖、模式識別、專家系統(tǒng)及歸納推理等領域调衰。

粗糙集理論的特點是能夠分析隱藏在數據中的事實膊爪,又不需要關于數據附加信息。

其主要思想是在保持分類能力不變的前提下嚎莉,通過知識約簡米酬,導出問題的決策或分類規(guī)則。

從數學的角度看趋箩,粗糙集是研究集合的赃额;從編程的角度看加派,粗糙集的研究對象是矩陣,只不過是一些特殊的矩陣;從人工智能的角度來看跳芳,粗糙集研究的是決策表芍锦。


粗糙集相關概念:

先給出一個例子,然后再介紹信息系統(tǒng)的一些概念

以病人的病例為例:


病人????????????? 頭疼??????????? 肌肉疼??????????? 體溫???????????????? 流感


e_{1}??????????????? 是?????????????? 是??????????????????? 正常??????????????? 否

e_{2}??????????????? 是???????? ? ? ? 是 ? ? ? ? ? ? ? ? ?? 高??????????????????? 是

e_{3}??????????????? 是?????????????? 是??????????????????? 很高??????????????? 是

e_{4}??????????????? 否?????????????? 是??????????????????? 正常??????????????? 否

e_{5}??????????????? 否?????????????? 否??????????????????? 高??????????????????? 否

e_{6}??????????????? 否?????????????? 是??????????????????? 很高??????????????? 是



?相關概念:

決策信息系統(tǒng)S=(U,A,V,f)是一個四元組飞盆,其中 U 是非空有限對象集娄琉,稱為論域,A 是非空有限屬性集吓歇,V=\cup _{a\in A}V_{a},V_{a}是其值孽水,屬性 a 的值域,f:U \times A\rightarrow V是一個信息函數照瘾。對于任意 a 屬于 A 匈棘,并且 x 屬于U,f(x,a)\in V_{a}

如果A=C\cup D,則 C 是條件屬性集析命,D 是決策屬性集主卫,S=(U,A,V,f)也被稱為決策表


概念有些抽象,下面我將結合例子先簡單解釋下一些基本概念:

在病例中鹃愤,有七行簇搅,五列

第一列是“病人”,在這一列软吐,除了第一行匙姜,還有六行校翔,即有六個元素或者對象

在信息系統(tǒng)中,這就是 U ,是非空有限對象集油狂,稱為論域。

用集合表示為:

U=\{e_{1},e_{2},e_{3},e_{4},e_{5},e_{6}\};


那什么是屬性呢灸促,除了第一列之外的其他列都是屬性了

屬性有條件屬性和決策屬性瓦侮,決策屬性為最后一列

先介紹條件屬性(C_{i})

C_{1}為頭疼屬性,C_{2}為肌肉疼屬性意述,C_{3}為體溫屬性

用集合表示為:

頭疼屬性:? C_{1}=\{是提佣,是,是荤崇,否拌屏,否,否\}

肌肉疼屬性:??? C_{2}=\{是术荤,是倚喂,是,是喜每,否务唐,是 \}

體溫屬性:???? C_{3}=\{ 正常雳攘,高,很高枫笛,正常吨灭,高,很高  \}


決策屬性(D):

流感D就是決策屬性了

D=\{ 否刑巧,是喧兄,是,否啊楚,否吠冤,是  \}

我們現在已經對一個信息系統(tǒng)進行了簡單介紹

可以看出,在信息系統(tǒng)中恭理,有很多的對象拯辙,它們有著各種各樣的屬性

其中不同的對象有著不同或者相同的條件屬性,使得每個對象有著不同的特征颜价,這些條件屬性會影響到決策屬性涯保,決策屬性不同,將決定著這個信息系統(tǒng)能被分成幾類


顯然決策屬性值的不同直接受條件屬性的影響周伦,可以說每一個條件屬性都可能成為決定決策屬性值的潛在影響因素夕春。進而決定著信息系統(tǒng)中的對象會被劃分到哪一類去

但是,我們也知道专挪,影響事物的潛在因素會有很多及志,有些會顯著影響結果,有些會有一些影響寨腔,而有些因素卻是可有可無的


現在我們正處于大數據的時代速侈,每個人每天的很多行為會產生各種各樣的數據

這些數據通常很大,維度很高迫卢,里面會有商家感興趣的部分锌畸,但是數據維數太大了

面對這種“數據極其豐富而信息相對缺乏”的情況,如何從海量的數據中獲得有用的信息或者決定性因素會是我們很感興趣的方面


因此靖避,面對這樣一個含有大量信息的信息系統(tǒng),如何去發(fā)掘出什么是影響決策屬性值的關鍵屬性是很有必要的

而這些關鍵屬性就隱藏在這一列列的條件屬性中比默,有些屬性對決策屬性產生了重要的影響幻捏,而有些屬性就顯得可有可無了

而我們就是希望能夠找出這些對決策屬性有著重要影響的條件屬性


對于上面的病例,有經驗的醫(yī)生可能一眼就看出來什么是影響一個病人患流感的關鍵因素

而我們可能作為門外漢命咐,可以學習通過一些粗糙集的知識篡九,同樣也能發(fā)掘出這樣的關鍵因素!


之后我會逐漸介紹粗糙集的其他概念醋奠,等價類榛臼,正區(qū)域伊佃,負域,邊界域沛善,知識粒度航揉,如何進行約簡等等概念,最后會介紹一個基于知識粒度的屬性約簡算法金刁!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末帅涂,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子尤蛮,更是在濱河造成了極大的恐慌媳友,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件产捞,死亡現場離奇詭異醇锚,居然都是意外死亡,警方通過查閱死者的電腦和手機坯临,發(fā)現死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進店門焊唬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人尿扯,你說我怎么就攤上這事求晶。” “怎么了衷笋?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵芳杏,是天一觀的道長。 經常有香客問我辟宗,道長爵赵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任泊脐,我火速辦了婚禮空幻,結果婚禮上,老公的妹妹穿的比我還像新娘容客。我一直安慰自己秕铛,他們只是感情好,可當我...
    茶點故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布缩挑。 她就那樣靜靜地躺著但两,像睡著了一般。 火紅的嫁衣襯著肌膚如雪供置。 梳的紋絲不亂的頭發(fā)上谨湘,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天,我揣著相機與錄音,去河邊找鬼紧阔。 笑死坊罢,一個胖子當著我的面吹牛,可吹牛的內容都是我干的擅耽。 我是一名探鬼主播活孩,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼秫筏!你這毒婦竟也來了诱鞠?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤这敬,失蹤者是張志新(化名)和其女友劉穎航夺,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體崔涂,經...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡阳掐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了冷蚂。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片缭保。...
    茶點故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蝙茶,靈堂內的尸體忽然破棺而出艺骂,到底是詐尸還是另有隱情,我是刑警寧澤隆夯,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布钳恕,位于F島的核電站,受9級特大地震影響蹄衷,放射性物質發(fā)生泄漏忧额。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一愧口、第九天 我趴在偏房一處隱蔽的房頂上張望睦番。 院中可真熱鬧,春花似錦耍属、人聲如沸托嚣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽注益。三九已至,卻和暖如春溯捆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工提揍, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留啤月,地道東北人。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓劳跃,卻偏偏與公主長得像谎仲,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子刨仑,可洞房花燭夜當晚...
    茶點故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內容

  • 前言:之前郑诺,我簡要地介紹了粗糙集,趁著雙休日的空閑之余杉武,我將繼續(xù)更新粗糙集方面的一些概念辙诞。我會盡量以通俗易懂的語言...
    思想永不平凡閱讀 7,394評論 5 32
  • 轉載:百度文庫一種對集合A的劃分就對應著關于A中元素的一個知識 面對日益增長的數據庫,人們將如何從這些浩瀚的數據中...
    We2sWing閱讀 1,710評論 1 4
  • 清明時節(jié)氣象新轻抱,桃紅柳綠萬木春飞涂。 鳥鳴蝶舞紙鳶飛,碧水潺潺繞山村祈搜。 云天萬里(清風明月或村野一叟)作于山東.煙臺较店。
    云天萬里閱讀 213評論 1 1
  • (文/小鹿布谷) 在青春的日子里 那時梁呈,父母還沒有結婚,他們也還只是孩子蘸秘。據說官卡,爸爸在學校是班級里的文藝骨干,也就...
    小鹿布谷閱讀 267評論 0 1
  • 價值大于價格秘血,全新東風標致408三個優(yōu)勢打造最具性價比轎車 近年來SUV成為了中國汽車市場的主流銷售車型味抖,近期,有...
    308c957f642e閱讀 95評論 0 0