聚類分析算法kmeans和KNN

1.簡(jiǎn)介

數(shù)據(jù)挖掘主要研究?jī)?nèi)容有:分類模式钢猛、聚類模式伙菜、回歸模式、關(guān)聯(lián)模式命迈、序列模式贩绕、偏差模式等等火的。

?1)分類模式:分類就是構(gòu)造一個(gè)分類函數(shù)(分類模型),把具有某些特征的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別上淑倾。

該過程由2步構(gòu)成:模型創(chuàng)建和模型使用馏鹤。Step1:通過對(duì)訓(xùn)練數(shù)據(jù)集的學(xué)習(xí)來建立分類模型; step2:用分類模型對(duì)測(cè)試數(shù)據(jù)和新的數(shù)據(jù)進(jìn)行分類娇哆。

?其中的訓(xùn)練數(shù)據(jù)集是帶有類標(biāo)號(hào)的湃累,也就是說在分類之前,要?jiǎng)澐值念悇e是已經(jīng)確定的迂尝。通常分類模型是以分類規(guī)則脱茉、決策樹或數(shù)學(xué)表達(dá)式的形式給出的。

2)聚類模式:聚類就是將數(shù)據(jù)項(xiàng)分組成多個(gè)類或簇垄开,類之間的數(shù)據(jù)差別應(yīng)盡可能大琴许,類內(nèi)的數(shù)據(jù)差別應(yīng)盡可能小,即為“最小化類間的相似性溉躲,最大化類內(nèi)的相似性”原則榜田。

與分類模式不同的是,聚類中要?jiǎng)澐值念悇e是未知的锻梳,它是一種不依賴于預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)集的非監(jiān)督學(xué)習(xí)箭券,無需背景知識(shí),其中類的數(shù)量由系統(tǒng)按照某種性能指標(biāo)自動(dòng)確定疑枯。

聚類是一種無監(jiān)督的學(xué)習(xí)方式(事先沒有任何訓(xùn)練樣本辩块,而需要直接對(duì)數(shù)據(jù)進(jìn)行建模);分類是典型的有監(jiān)督學(xué)習(xí)(通過已有的訓(xùn)練樣本去訓(xùn)練得到一個(gè)最優(yōu)模型)

聚類涉及的數(shù)據(jù)集合其特征是未知的荆永,并且在開始聚類之前废亭,用戶并不知道要把數(shù)據(jù)劃分成幾類,也不清楚分組的標(biāo)準(zhǔn)具钥;分類實(shí)際上就是從數(shù)據(jù)庫(kù)對(duì)象中發(fā)現(xiàn)共性豆村,并將數(shù)據(jù)對(duì)象分成不同類別的一個(gè)過程。

2.聚類算法

(1)基于分層的聚類(hierarchical methods)

? 將給定的數(shù)據(jù)集進(jìn)行逐層分解骂删,直到滿足某種條件為止掌动。具體可分為“自底向上”和“自頂向下”兩種方案。在“自底向上”方案中宁玫,初始時(shí)每個(gè)數(shù)據(jù)點(diǎn)組成一個(gè)單獨(dú)的組粗恢,在接下來的迭代中,按一定的距離度量將相互鄰近的組合并成一個(gè)組欧瘪,直至所有的記錄組成一個(gè)分組或者滿足某個(gè)條件為止眷射。代表算法有:BIRCH,CURE,CHAMELEON等凭迹。

(2)基于劃分的聚類(partitioning methods)

給定包含n個(gè)點(diǎn)的數(shù)據(jù)集罚屋,劃分法將構(gòu)造k個(gè)分組,每個(gè)分組代表一個(gè)聚類嗅绸,這里每個(gè)分組至少包含一個(gè)數(shù)據(jù)點(diǎn)脾猛,每個(gè)數(shù)據(jù)點(diǎn)屬于且僅屬于一個(gè)分組。對(duì)于給定的值鱼鸠,算法先給出一個(gè)初始的分組方法猛拴,然后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案較前一次好蚀狰,這里好的標(biāo)準(zhǔn)在于同一組中的點(diǎn)越近越好愉昆,不同組中的點(diǎn)越遠(yuǎn)越好。代表算法有:K-means麻蹋,K-medoids跛溉,CLARANS。

(3)基于密度的聚類(density-based methods)

基于密度的方法的特點(diǎn)是不依賴于距離扮授,而是依賴于密度芳室,從而克服基于距離的算法只能發(fā)現(xiàn)“球形”聚簇的缺點(diǎn)。其核心思想在于只要一個(gè)區(qū)域中點(diǎn)的密度大于某個(gè)閾值刹勃,就把它加到與之相近的聚類中去堪侯。代表算法有:DBSCAN,OPTICS荔仁,DENCLUE伍宦,WaveCluster。

(4)基于網(wǎng)格的聚類(gird-based methods)

這種方法通常將數(shù)據(jù)空間劃分成有限個(gè)單元的網(wǎng)格結(jié)構(gòu)乏梁,所有的處理都是以單個(gè)的單元為對(duì)象次洼。這樣做起來處理速度很快,因?yàn)檫@與數(shù)據(jù)點(diǎn)的個(gè)數(shù)無關(guān)掌呜,而只與單元格個(gè)數(shù)有關(guān)滓玖。代表算法有:STING坪哄,CLIQUE质蕉。

(5)基于模型的聚類(model-based methods)

基于模型的方法給每一個(gè)聚類假定一個(gè)模型,然后去尋找能很好的擬合模型的數(shù)據(jù)集翩肌。模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它模暗。這樣的方法通常包含的潛在假設(shè)是:數(shù)據(jù)集是由一系列的潛在概率分布生成的。通常有兩種嘗試思路:統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法念祭。其中兑宇,統(tǒng)計(jì)學(xué)方法有COBWEB算法、GMM(Gaussian Mixture Model)粱坤,神經(jīng)網(wǎng)絡(luò)算法有SOM(Self Organized Maps)算法隶糕。

3.kmeans算法

1)算法只能找到局部最優(yōu)的聚類瓷产,而不是全局最優(yōu)的聚類。而且算法的結(jié)果非常依賴于初始隨機(jī)選擇的聚類中心的位置枚驻。我們需要通過多次運(yùn)行算法濒旦,使用不同的隨機(jī)生成的聚類中心點(diǎn)運(yùn)行算法,然后對(duì)各自結(jié)果C通過evaluate(C)函數(shù)進(jìn)行評(píng)估再登,選擇多次結(jié)果中evaluate(C)值最小的那一個(gè)尔邓。

2)關(guān)于性能問題。原始的算法锉矢,每一次迭代都要計(jì)算每一個(gè)觀測(cè)點(diǎn)與所有聚類中心的距離梯嗽,導(dǎo)致效率不高。有沒有方法能夠提高效率呢沽损?是有的灯节,可以使用k-d tree或者ball tree這種數(shù)據(jù)結(jié)構(gòu)來提高算法的效率。特定條件下绵估,對(duì)于一定區(qū)域內(nèi)的觀測(cè)點(diǎn)显晶,無需遍歷每一個(gè)觀測(cè)點(diǎn),就可以把這個(gè)區(qū)域內(nèi)所有的點(diǎn)放到距離最近的一個(gè)聚類中去壹士。

kmeans算法在圖像分割上也有應(yīng)用磷雇。

4.kNN算法

1)相似度計(jì)算方法:歐式距離、皮爾遜相關(guān)系數(shù)躏救、余弦相似度唯笙、馬氏距離、切比雪夫距離盒使、曼哈頓距離

2)KNN算法:文本分類崩掘、產(chǎn)品推薦、人臉識(shí)別少办、異常行為檢測(cè)

異常行為檢測(cè):建立系統(tǒng)或用戶的正常行為特征輪廓(Profile)苞慢,通過比較當(dāng)前的系統(tǒng)或用戶的行為是否偏離正常的行為特征輪廓來判斷是否發(fā)生了入侵行為。異常行為檢測(cè)也是對(duì)被檢測(cè)的未知行為分類的過程英妓,未知行為與已知的正常行為相似挽放,則該行為是正常行為,否則是入侵行為蔓纠。

5.聚類算法的應(yīng)用

1)協(xié)同過濾算法(推薦系統(tǒng))

2)向量空間模型

使用向量空間模型對(duì)文本進(jìn)行結(jié)構(gòu)化的基本想法是,根據(jù)“貝葉斯假定”,不考慮文本中各個(gè)特征項(xiàng)的位置信息,假定特征項(xiàng)之間相互獨(dú)立,由若干個(gè)字辑畦、詞語(yǔ)特征項(xiàng)組合成一個(gè)文本。文本集中出現(xiàn)的所有特征項(xiàng)共同構(gòu)造出一個(gè)高維的向量空間腿倚。向量空間的每個(gè)維度即為一個(gè)特征項(xiàng),而每個(gè)文本被看作向量空間中的一個(gè)特性向量纯出。

選取特征項(xiàng)-特征權(quán)值計(jì)算(布爾全中、詞語(yǔ)頻率、TF-IDF權(quán)重)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末暂筝,一起剝皮案震驚了整個(gè)濱河市箩言,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌焕襟,老刑警劉巖分扎,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異胧洒,居然都是意外死亡畏吓,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門卫漫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來菲饼,“玉大人,你說我怎么就攤上這事列赎『暝茫” “怎么了?”我有些...
    開封第一講書人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵包吝,是天一觀的道長(zhǎng)饼煞。 經(jīng)常有香客問我,道長(zhǎng)诗越,這世上最難降的妖魔是什么砖瞧? 我笑而不...
    開封第一講書人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮嚷狞,結(jié)果婚禮上块促,老公的妹妹穿的比我還像新娘。我一直安慰自己床未,他們只是感情好竭翠,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著薇搁,像睡著了一般斋扰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上啃洋,一...
    開封第一講書人閱讀 52,328評(píng)論 1 310
  • 那天传货,我揣著相機(jī)與錄音,去河邊找鬼裂允。 笑死损离,一個(gè)胖子當(dāng)著我的面吹牛哥艇,可吹牛的內(nèi)容都是我干的绝编。 我是一名探鬼主播,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼十饥!你這毒婦竟也來了窟勃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤逗堵,失蹤者是張志新(化名)和其女友劉穎秉氧,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蜒秤,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡汁咏,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了作媚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片攘滩。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖纸泡,靈堂內(nèi)的尸體忽然破棺而出漂问,到底是詐尸還是另有隱情,我是刑警寧澤女揭,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布蚤假,位于F島的核電站,受9級(jí)特大地震影響吧兔,放射性物質(zhì)發(fā)生泄漏磷仰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一境蔼、第九天 我趴在偏房一處隱蔽的房頂上張望芒划。 院中可真熱鬧,春花似錦欧穴、人聲如沸民逼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)拼苍。三九已至,卻和暖如春调缨,著一層夾襖步出監(jiān)牢的瞬間疮鲫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工弦叶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留俊犯,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓伤哺,卻偏偏與公主長(zhǎng)得像燕侠,于是被迫代替她去往敵國(guó)和親者祖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容