- 非監(jiān)督學(xué)習(xí)
- 定義:訓(xùn)練數(shù)據(jù)無類荠藤。
- 包括:類簇 (訓(xùn)練數(shù)據(jù)能分成某些組,例如:市場分割书妻,社交網(wǎng)絡(luò)分析船响,基因檢測); 異常檢測(訓(xùn)練數(shù)據(jù)中躲履,一些值不能歸于期待的模型)
- Clustering 算法
- partitioning methods(分開算法见间,基于中心分簇);例如:找出球形的相互獨(dú)立的簇工猜;基于距離米诉;k-means
- 基于關(guān)聯(lián)性的方法;例如:自上而下篷帅;自下而上
- 基于密度的方法史侣;例如:密度模型DBSCAN
- 基于網(wǎng)格的方法;例如:使用多分辨率網(wǎng)格數(shù)據(jù)結(jié)構(gòu)
- 基于分布的方法魏身;例如:Expectation-maximization算法
- K-means
- 定義:將數(shù)據(jù)分成K組抵窒,而每個(gè)簇都由簇中心點(diǎn)的距離有關(guān)
-
步驟: (1)選出k個(gè)點(diǎn),作為均值中心點(diǎn)叠骑;(2)每個(gè)點(diǎn)的歸簇問題由與中心最近的距離決定李皇; (3)更新下最新的均值中心點(diǎn);(4) 重復(fù)以上步驟宙枷。
-
K-mean缺點(diǎn):(1) k的確定需要提前決定
(2)均值中心點(diǎn)的初始化很重要掉房,選不好,就很容易產(chǎn)生不好的結(jié)果慰丛; (3) 只能解決數(shù)字化問題卓囚,例如性別,國家等類別诅病,需要預(yù)先用數(shù)字表示哪亿;(4)在本地最小點(diǎn),算法會(huì)停滯贤笆,即不收斂
(5)很容易受異常點(diǎn)和噪聲影響蝇棉,導(dǎo)致不準(zhǔn)確分割
(6)不能用于球形的簇分割,或者不同密度和尺寸的簇
- 如何選擇k值
- 法1:根據(jù)分割結(jié)果芥永,來調(diào)整k值
- 法2: elbow法篡殷,即嘗試不同的k值,逐步增加k值埋涧,然后觀察到均值中心點(diǎn)的平均距離變化板辽;理想下奇瘦,均值距離初期快速下降,后期緩慢下降劲弦;
-總的來說耳标,目前很難找到elbow點(diǎn),實(shí)際應(yīng)用中邑跪,不用elbow法來找k值麻捻。