數(shù)據(jù)挖掘總復(fù)習(xí)

數(shù)據(jù)挖掘概論

產(chǎn)生背景:從數(shù)據(jù)到知識

數(shù)據(jù)就是描述事物的符號乒躺。

數(shù)據(jù): 是原材料,它只描述發(fā)生了什么事情,并不能構(gòu)成決策或行動的可靠基礎(chǔ)孽拷。

信息: 通過對數(shù)據(jù)進(jìn)行分析找出其中關(guān)系雌续,賦予數(shù)據(jù)以某種意義和聯(lián)系斩个,這就形成了所謂的信息。信息雖然給出了數(shù)據(jù)中一些有一定意義的東西驯杜,但是它往往和人們所要完成的任務(wù)沒有直接的聯(lián)系萨驶,也還不能作為判斷、決策和行動的依據(jù)艇肴。

知識:對信息進(jìn)行再加工腔呜,即進(jìn)行更深入的歸納分析叁温,才能獲得更有用的信息,即知識核畴。

數(shù)據(jù)挖掘(Data Mining):在數(shù)據(jù)中正規(guī)地發(fā)現(xiàn)有效的膝但、新穎的、潛在有用的谤草,并且最終可以被讀懂的模式的過程跟束。

按照算法,將數(shù)據(jù)挖掘的模型分為預(yù)測和描述兩類丑孩。


數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)圖

數(shù)據(jù)挖掘任務(wù):預(yù)測任務(wù)冀宴、描述任務(wù)。

數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域有市場營銷温学、金融略贮、銀行、制造和通信等仗岖。商業(yè)上的大多數(shù)應(yīng)用針對的是分類預(yù)測任務(wù)逃延。

數(shù)據(jù)挖掘過程:

選擇:根據(jù)某種標(biāo)準(zhǔn)選擇或者切分?jǐn)?shù)據(jù)。

處理:包括清除和充實(shí)兩個(gè)方面

轉(zhuǎn)換:刪除那些丟失重要內(nèi)容的記錄轧拄,將數(shù)據(jù)分類

解釋與評價(jià):將發(fā)現(xiàn)的模式解釋成為可以用于決策的知識

例題:

一揽祥、生物醫(yī)學(xué)領(lǐng)域人工智能的研究熱點(diǎn)和發(fā)展趨勢

1、檢索

①在MESH中查找主題詞“人工智能”

②在pubmed中的生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)庫檢索主題詞檩电,不組配任何副主題詞并加權(quán)拄丰。

2、數(shù)據(jù)提取

使用書目共現(xiàn)分析系統(tǒng)提取高頻主題詞及關(guān)鍵詞俐末。

3愈案、數(shù)據(jù)預(yù)處理

①通過MESH主題詞表規(guī)范合并主題詞

②根據(jù)詞頻選擇合適閾值確定數(shù)據(jù)

4、數(shù)據(jù)處理

①生成詞篇矩陣鹅搪、共現(xiàn)矩陣

②利用軟件進(jìn)行聚類分析(spss站绪、gcluto)

③利用軟件進(jìn)行戰(zhàn)略坐標(biāo)圖制作

5、結(jié)果分析

①根據(jù)第4步聚類分析結(jié)果得出研究熱點(diǎn)

②根據(jù)第4步戰(zhàn)略坐標(biāo)圖分析發(fā)展趨勢

6丽柿、得出結(jié)論


二恢准、探索中醫(yī)防治“新冠”的用藥特點(diǎn)及配伍規(guī)律的技術(shù)路線

1、檢索

在“國家知識產(chǎn)權(quán)局”專利數(shù)據(jù)庫中獲取防治“新冠”的專利藥方甫题。

2馁筐、數(shù)據(jù)提取

自定義書目共現(xiàn)分析系統(tǒng)文件類型,提取數(shù)據(jù)坠非。

3敏沉、數(shù)據(jù)預(yù)處理

①根據(jù)《中國藥典》等,規(guī)范合并藥物名稱。

②選擇合適的閾值確定數(shù)據(jù)盟迟。

4秋泳、利用Apriori 算法處理數(shù)據(jù)

①根據(jù)頻次統(tǒng)計(jì)結(jié)果形成一項(xiàng)集。

②設(shè)置合適支持度閾值形成k項(xiàng)集攒菠。

③分別統(tǒng)計(jì)兩種藥物(二項(xiàng)集)的支持度迫皱、置信度,三項(xiàng)集辖众、四項(xiàng)集卓起、直到找到頻繁k項(xiàng)集為止。

5凹炸、結(jié)果分析

①根據(jù)第4步支持度分析用藥特點(diǎn)戏阅。

②根據(jù)第四步置信度分析配伍規(guī)律。

6啤它、得出結(jié)論


聚類分析

聚類定義:聚類分析(Cluster Analysis)是將一個(gè)數(shù)據(jù)集劃分為若干組或類的過程(組或類未知)奕筐,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對象具有較高的相似度;不同的組中的數(shù)據(jù)對象是不相似的蚕键。

分類(classification):是一種數(shù)據(jù)分析過程救欧,即根據(jù)記錄各屬性的值確定該記錄屬于預(yù)定類別中的哪一類衰粹。

聚類與分類的不同:

分類是根據(jù)樣本的屬性將數(shù)據(jù)對象分到不同的已知類中锣光;

聚類是在劃分的類未知的情況下,將數(shù)據(jù)對象組成不同類铝耻,需在樣本中找到這個(gè)屬性誊爹。


聚類分析中常用的數(shù)據(jù)類型有區(qū)間標(biāo)度變量、二元變量瓢捉、標(biāo)稱型變量频丘、序數(shù)型變量、序數(shù)型變量泡态、比例標(biāo)度型標(biāo)量和混合類型變量搂漠。

相異度d(i ,j)的具體計(jì)算會因所使用的數(shù)據(jù)類型的不同而異。

二元變量相異度計(jì)算:

相異度計(jì)算公式

r+s: 不同值的個(gè)數(shù)

q:同為陽性的個(gè)數(shù)

K-均值算法思想:

? ? ? 隨機(jī)選擇k個(gè)對象某弦,每個(gè)對象初始地代表一個(gè)類的平均值或中心桐汤,對剩余每個(gè)對象,根據(jù)其到類中心的距離靶壮,被劃分到最近的類怔毛;然后重新計(jì)算每個(gè)類的平均值。不斷重復(fù)這個(gè)過程腾降,直到所有的樣本都不能再分配為止拣度。

層次聚類:凝聚的,分裂的


共現(xiàn)分析

同被引分析? 共詞分析? ? 共篇分析

戰(zhàn)略坐標(biāo)

橫軸? ? 向心度:主題詞關(guān)聯(lián)強(qiáng)度

縱軸? ? 密度:主題內(nèi)部關(guān)聯(lián)強(qiáng)度

支持度:兩個(gè)詞共同出現(xiàn)的概率。

置信度:X出現(xiàn)的情況下抗果,Y也出現(xiàn)的概率筋帖。

先驗(yàn)原理:如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集一定也是頻繁的窖张。如果項(xiàng)集是非頻繁的幕随,則它的超集也一定是非頻繁的。

Apriori算法:

掃描數(shù)據(jù)庫宿接,累積每個(gè)項(xiàng)的計(jì)數(shù)

收集滿足最小支持度的項(xiàng)赘淮,找出頻繁1項(xiàng)集的集合L1

L1用于找頻繁2項(xiàng)集的集合L2

L2用于找L3?

直到不能再找到頻繁k項(xiàng)集為止


基于文獻(xiàn)的知識發(fā)現(xiàn)

閉合式知識發(fā)現(xiàn)過程是從A和C出發(fā),尋找共同的中間詞B睦霎。

開放式知識發(fā)現(xiàn)的過程是梢卸,對某個(gè)初始研究主題A,在MEDLINE的標(biāo)題字段檢索其相關(guān)文獻(xiàn)副女,尋找與A在標(biāo)題中共同出現(xiàn)的中間詞B蛤高,通過篩選得到有一定意義的B,進(jìn)而重復(fù)上述過程碑幅,得到目標(biāo)詞C戴陡。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市沟涨,隨后出現(xiàn)的幾起案子恤批,更是在濱河造成了極大的恐慌,老刑警劉巖裹赴,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件喜庞,死亡現(xiàn)場離奇詭異,居然都是意外死亡棋返,警方通過查閱死者的電腦和手機(jī)延都,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來睛竣,“玉大人晰房,你說我怎么就攤上這事∩涔担” “怎么了殊者?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長躏惋。 經(jīng)常有香客問我幽污,道長,這世上最難降的妖魔是什么簿姨? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任距误,我火速辦了婚禮簸搞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘准潭。我一直安慰自己趁俊,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布刑然。 她就那樣靜靜地躺著寺擂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪泼掠。 梳的紋絲不亂的頭發(fā)上怔软,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天,我揣著相機(jī)與錄音择镇,去河邊找鬼挡逼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛腻豌,可吹牛的內(nèi)容都是我干的家坎。 我是一名探鬼主播,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼吝梅,長吁一口氣:“原來是場噩夢啊……” “哼虱疏!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起苏携,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤做瞪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后兜叨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體穿扳,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡衩侥,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年国旷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片茫死。...
    茶點(diǎn)故事閱讀 40,503評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡跪但,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出峦萎,到底是詐尸還是另有隱情屡久,我是刑警寧澤,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布爱榔,位于F島的核電站被环,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏详幽。R本人自食惡果不足惜筛欢,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一浸锨、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧版姑,春花似錦柱搜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至表制,卻和暖如春健爬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背么介。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工浑劳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人夭拌。 一個(gè)月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓魔熏,卻偏偏與公主長得像,于是被迫代替她去往敵國和親鸽扁。 傳聞我的和親對象是個(gè)殘疾皇子蒜绽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內(nèi)容