數(shù)據(jù)挖掘概論
產(chǎn)生背景:從數(shù)據(jù)到知識
數(shù)據(jù)就是描述事物的符號乒躺。
數(shù)據(jù): 是原材料,它只描述發(fā)生了什么事情,并不能構(gòu)成決策或行動的可靠基礎(chǔ)孽拷。
信息: 通過對數(shù)據(jù)進(jìn)行分析找出其中關(guān)系雌续,賦予數(shù)據(jù)以某種意義和聯(lián)系斩个,這就形成了所謂的信息。信息雖然給出了數(shù)據(jù)中一些有一定意義的東西驯杜,但是它往往和人們所要完成的任務(wù)沒有直接的聯(lián)系萨驶,也還不能作為判斷、決策和行動的依據(jù)艇肴。
知識:對信息進(jìn)行再加工腔呜,即進(jìn)行更深入的歸納分析叁温,才能獲得更有用的信息,即知識核畴。
數(shù)據(jù)挖掘(Data Mining):在數(shù)據(jù)中正規(guī)地發(fā)現(xiàn)有效的膝但、新穎的、潛在有用的谤草,并且最終可以被讀懂的模式的過程跟束。
按照算法,將數(shù)據(jù)挖掘的模型分為預(yù)測和描述兩類丑孩。
數(shù)據(jù)挖掘任務(wù):預(yù)測任務(wù)冀宴、描述任務(wù)。
數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域有市場營銷温学、金融略贮、銀行、制造和通信等仗岖。商業(yè)上的大多數(shù)應(yīng)用針對的是分類預(yù)測任務(wù)逃延。
數(shù)據(jù)挖掘過程:
選擇:根據(jù)某種標(biāo)準(zhǔn)選擇或者切分?jǐn)?shù)據(jù)。
處理:包括清除和充實(shí)兩個(gè)方面
轉(zhuǎn)換:刪除那些丟失重要內(nèi)容的記錄轧拄,將數(shù)據(jù)分類
解釋與評價(jià):將發(fā)現(xiàn)的模式解釋成為可以用于決策的知識
例題:
一揽祥、生物醫(yī)學(xué)領(lǐng)域人工智能的研究熱點(diǎn)和發(fā)展趨勢
1、檢索
①在MESH中查找主題詞“人工智能”
②在pubmed中的生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)庫檢索主題詞檩电,不組配任何副主題詞并加權(quán)拄丰。
2、數(shù)據(jù)提取
使用書目共現(xiàn)分析系統(tǒng)提取高頻主題詞及關(guān)鍵詞俐末。
3愈案、數(shù)據(jù)預(yù)處理
①通過MESH主題詞表規(guī)范合并主題詞
②根據(jù)詞頻選擇合適閾值確定數(shù)據(jù)
4、數(shù)據(jù)處理
①生成詞篇矩陣鹅搪、共現(xiàn)矩陣
②利用軟件進(jìn)行聚類分析(spss站绪、gcluto)
③利用軟件進(jìn)行戰(zhàn)略坐標(biāo)圖制作
5、結(jié)果分析
①根據(jù)第4步聚類分析結(jié)果得出研究熱點(diǎn)
②根據(jù)第4步戰(zhàn)略坐標(biāo)圖分析發(fā)展趨勢
6丽柿、得出結(jié)論
二恢准、探索中醫(yī)防治“新冠”的用藥特點(diǎn)及配伍規(guī)律的技術(shù)路線
1、檢索
在“國家知識產(chǎn)權(quán)局”專利數(shù)據(jù)庫中獲取防治“新冠”的專利藥方甫题。
2馁筐、數(shù)據(jù)提取
自定義書目共現(xiàn)分析系統(tǒng)文件類型,提取數(shù)據(jù)坠非。
3敏沉、數(shù)據(jù)預(yù)處理
①根據(jù)《中國藥典》等,規(guī)范合并藥物名稱。
②選擇合適的閾值確定數(shù)據(jù)盟迟。
4秋泳、利用Apriori 算法處理數(shù)據(jù)
①根據(jù)頻次統(tǒng)計(jì)結(jié)果形成一項(xiàng)集。
②設(shè)置合適支持度閾值形成k項(xiàng)集攒菠。
③分別統(tǒng)計(jì)兩種藥物(二項(xiàng)集)的支持度迫皱、置信度,三項(xiàng)集辖众、四項(xiàng)集卓起、直到找到頻繁k項(xiàng)集為止。
5凹炸、結(jié)果分析
①根據(jù)第4步支持度分析用藥特點(diǎn)戏阅。
②根據(jù)第四步置信度分析配伍規(guī)律。
6啤它、得出結(jié)論
聚類分析
聚類定義:聚類分析(Cluster Analysis)是將一個(gè)數(shù)據(jù)集劃分為若干組或類的過程(組或類未知)奕筐,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對象具有較高的相似度;不同的組中的數(shù)據(jù)對象是不相似的蚕键。
分類(classification):是一種數(shù)據(jù)分析過程救欧,即根據(jù)記錄各屬性的值確定該記錄屬于預(yù)定類別中的哪一類衰粹。
聚類與分類的不同:
分類是根據(jù)樣本的屬性將數(shù)據(jù)對象分到不同的已知類中锣光;
聚類是在劃分的類未知的情況下,將數(shù)據(jù)對象組成不同類铝耻,需在樣本中找到這個(gè)屬性誊爹。
聚類分析中常用的數(shù)據(jù)類型有區(qū)間標(biāo)度變量、二元變量瓢捉、標(biāo)稱型變量频丘、序數(shù)型變量、序數(shù)型變量泡态、比例標(biāo)度型標(biāo)量和混合類型變量搂漠。
相異度d(i ,j)的具體計(jì)算會因所使用的數(shù)據(jù)類型的不同而異。
二元變量相異度計(jì)算:
r+s: 不同值的個(gè)數(shù)
q:同為陽性的個(gè)數(shù)
K-均值算法思想:
? ? ? 隨機(jī)選擇k個(gè)對象某弦,每個(gè)對象初始地代表一個(gè)類的平均值或中心桐汤,對剩余每個(gè)對象,根據(jù)其到類中心的距離靶壮,被劃分到最近的類怔毛;然后重新計(jì)算每個(gè)類的平均值。不斷重復(fù)這個(gè)過程腾降,直到所有的樣本都不能再分配為止拣度。
層次聚類:凝聚的,分裂的
共現(xiàn)分析
同被引分析? 共詞分析? ? 共篇分析
戰(zhàn)略坐標(biāo)
橫軸? ? 向心度:主題詞關(guān)聯(lián)強(qiáng)度
縱軸? ? 密度:主題內(nèi)部關(guān)聯(lián)強(qiáng)度
支持度:兩個(gè)詞共同出現(xiàn)的概率。
置信度:X出現(xiàn)的情況下抗果,Y也出現(xiàn)的概率筋帖。
先驗(yàn)原理:如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集一定也是頻繁的窖张。如果項(xiàng)集是非頻繁的幕随,則它的超集也一定是非頻繁的。
Apriori算法:
掃描數(shù)據(jù)庫宿接,累積每個(gè)項(xiàng)的計(jì)數(shù)
收集滿足最小支持度的項(xiàng)赘淮,找出頻繁1項(xiàng)集的集合L1
L1用于找頻繁2項(xiàng)集的集合L2
L2用于找L3?
直到不能再找到頻繁k項(xiàng)集為止
基于文獻(xiàn)的知識發(fā)現(xiàn)
閉合式知識發(fā)現(xiàn)過程是從A和C出發(fā),尋找共同的中間詞B睦霎。
開放式知識發(fā)現(xiàn)的過程是梢卸,對某個(gè)初始研究主題A,在MEDLINE的標(biāo)題字段檢索其相關(guān)文獻(xiàn)副女,尋找與A在標(biāo)題中共同出現(xiàn)的中間詞B蛤高,通過篩選得到有一定意義的B,進(jìn)而重復(fù)上述過程碑幅,得到目標(biāo)詞C戴陡。