數(shù)據(jù)挖掘重點(diǎn)知識(shí)講解

一、數(shù)據(jù)挖掘的過(guò)程

數(shù)據(jù)挖掘使用一定的算法從實(shí)際應(yīng)用數(shù)據(jù)中挖掘出未知溉旋、有價(jià)值的模式或規(guī)律等知識(shí),整個(gè)過(guò)程由數(shù)據(jù)準(zhǔn)備畸冲、數(shù)據(jù)挖掘、模式評(píng)估、鞏固知識(shí)和運(yùn)用知識(shí)等步驟組成邑闲。

1.數(shù)據(jù)準(zhǔn)備算行。數(shù)據(jù)挖掘的處理對(duì)象是數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中,是長(zhǎng)期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘,首先要清除數(shù)據(jù)噪聲和與挖掘主題明顯無(wú)關(guān)的數(shù)據(jù);其次將來(lái)自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合并;然后將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式,這就是數(shù)據(jù)準(zhǔn)備苫耸。

2.數(shù)據(jù)挖掘州邢。數(shù)據(jù)挖掘就是根據(jù)數(shù)據(jù)挖掘的目標(biāo),選取相應(yīng)算法及參數(shù),分析準(zhǔn)備好的數(shù)據(jù),產(chǎn)生一個(gè)特定的模式或數(shù)據(jù)集,從而得到可能形成知識(shí)的模式模型。

3.模式評(píng)估鲸阔。由挖掘算法產(chǎn)生的模式規(guī)律,存在無(wú)實(shí)際意義或無(wú)實(shí)用價(jià)值的情況,也存在不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義的情況,甚至在某些情況下與事實(shí)相反,因此需要對(duì)其進(jìn)行評(píng)估,從挖掘結(jié)果中篩選出有意義的模式規(guī)律偷霉。在此過(guò)程中,為了取得更為有效的知識(shí),可能會(huì)返回前面的某一處理步驟中以反復(fù)提取,從而提取出更有效的知識(shí)。

二褐筛、數(shù)據(jù)挖掘的常用方法

1.決策樹(shù)方法类少。決策樹(shù)是一種常用于預(yù)測(cè)模型的算法,它通過(guò)一系列規(guī)則將大量數(shù)據(jù)有目的分類(lèi),從中找到一些有價(jià)值的、潛在的信息渔扎。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類(lèi)速度快,易于理解硫狞、精度較高,特別適合大規(guī)模的數(shù)據(jù)處理,在知識(shí)發(fā)現(xiàn)系統(tǒng)中應(yīng)用較廣。它的主要缺點(diǎn)是很難基于多個(gè)變量組合發(fā)現(xiàn)規(guī)則晃痴。在數(shù)據(jù)挖掘中,決策樹(shù)方法主要用于分類(lèi)残吩。

2.神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)是模擬人類(lèi)的形象直覺(jué)思維,在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的特點(diǎn),通過(guò)簡(jiǎn)化倘核、歸納泣侮、提煉總結(jié)出來(lái)的一類(lèi)并行處理網(wǎng)絡(luò),利用其非線(xiàn)性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡(luò)本身結(jié)構(gòu)來(lái)表達(dá)輸入和輸出的關(guān)聯(lián)知識(shí)。

3.粗糙集方法紧唱。粗糙集理論是一種研究不精確活尊、不確定知識(shí)的數(shù)學(xué)工具。粗糙集處理的對(duì)象是類(lèi)似二維關(guān)系表的信息表漏益。目前成熟的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和新發(fā)展起來(lái)的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng),為粗糙集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)蛹锰。粗糙集理論能夠在缺少先驗(yàn)知識(shí)的情況下,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)處理。在該方法中知識(shí)是以信息系統(tǒng)的形式表示的,先對(duì)信息系統(tǒng)進(jìn)行歸約,再?gòu)慕?jīng)過(guò)歸約后的知識(shí)庫(kù)抽取得到更有價(jià)值绰疤、更準(zhǔn)確的一系列規(guī)則铜犬。因此,基于粗糙集的數(shù)據(jù)挖掘算法實(shí)際上就是對(duì)大量數(shù)據(jù)構(gòu)成的信息系統(tǒng)進(jìn)行約簡(jiǎn),得到一種屬性歸約集的過(guò)程,最后抽取規(guī)則。

4.遺傳算法轻庆。遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法癣猾。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的余爆、潛在有用的信息煎谍。因此,許多數(shù)據(jù)挖掘問(wèn)題可以看成是搜索問(wèn)題,數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)為搜索空間,挖掘算法是搜索策略。應(yīng)用遺傳算法在數(shù)據(jù)庫(kù)中進(jìn)行搜索,對(duì)隨機(jī)產(chǎn)生的一組規(guī)則進(jìn)行進(jìn)化,直到數(shù)據(jù)庫(kù)能被該組規(guī)則覆蓋,就可以挖掘出隱含在數(shù)據(jù)庫(kù)中的規(guī)則龙屉。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子转捕,更是在濱河造成了極大的恐慌作岖,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,919評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件五芝,死亡現(xiàn)場(chǎng)離奇詭異痘儡,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)枢步,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)沉删,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人醉途,你說(shuō)我怎么就攤上這事矾瑰。” “怎么了隘擎?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,316評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵殴穴,是天一觀(guān)的道長(zhǎng)。 經(jīng)常有香客問(wèn)我货葬,道長(zhǎng)采幌,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,294評(píng)論 1 292
  • 正文 為了忘掉前任震桶,我火速辦了婚禮休傍,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蹲姐。我一直安慰自己磨取,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布淤堵。 她就那樣靜靜地躺著寝衫,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拐邪。 梳的紋絲不亂的頭發(fā)上慰毅,一...
    開(kāi)封第一講書(shū)人閱讀 51,245評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音扎阶,去河邊找鬼汹胃。 笑死,一個(gè)胖子當(dāng)著我的面吹牛东臀,可吹牛的內(nèi)容都是我干的着饥。 我是一名探鬼主播,決...
    沈念sama閱讀 40,120評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼惰赋,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼宰掉!你這毒婦竟也來(lái)了呵哨?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,964評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤轨奄,失蹤者是張志新(化名)和其女友劉穎孟害,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體挪拟,經(jīng)...
    沈念sama閱讀 45,376評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡挨务,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了玉组。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谎柄。...
    茶點(diǎn)故事閱讀 39,764評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖惯雳,靈堂內(nèi)的尸體忽然破棺而出朝巫,到底是詐尸還是另有隱情,我是刑警寧澤吨凑,帶...
    沈念sama閱讀 35,460評(píng)論 5 344
  • 正文 年R本政府宣布捍歪,位于F島的核電站,受9級(jí)特大地震影響鸵钝,放射性物質(zhì)發(fā)生泄漏糙臼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評(píng)論 3 327
  • 文/蒙蒙 一恩商、第九天 我趴在偏房一處隱蔽的房頂上張望变逃。 院中可真熱鬧,春花似錦怠堪、人聲如沸揽乱。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,697評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)凰棉。三九已至,卻和暖如春陌粹,著一層夾襖步出監(jiān)牢的瞬間撒犀,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,846評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工掏秩, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留或舞,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,819評(píng)論 2 370
  • 正文 我出身青樓蒙幻,卻偏偏與公主長(zhǎng)得像映凳,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子邮破,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容