1 K-means算法
實(shí)際上,無論是從算法思想棘伴,還是具體實(shí)現(xiàn)上寞埠,K-means算法是一種很簡(jiǎn)單的算法。它屬于無監(jiān)督分類焊夸,通過按照一定的方式度量樣本之間的相似度仁连,通過迭代更新聚類中心,當(dāng)聚類中心不再移動(dòng)或移動(dòng)差值小于閾值時(shí)阱穗,則就樣本分為不同的類別饭冬。
1.1 算法思路
- 隨機(jī)選取聚類中心
- 根據(jù)當(dāng)前聚類中心,利用選定的度量方式揪阶,分類所有樣本點(diǎn)
- 計(jì)算當(dāng)前每一類的樣本點(diǎn)的均值伍伤,作為下一次迭代的聚類中心
- 計(jì)算下一次迭代的聚類中心與當(dāng)前聚類中心的差距
- 如4中的差距小于給定迭代閾值時(shí),迭代結(jié)束遣钳。反之扰魂,至2繼續(xù)下一次迭代
1.2 度量方式
根據(jù)聚類中心,將所有樣本點(diǎn)分為最相似的類別蕴茴。這需要一個(gè)有效的盤踞劝评,平方差是最常用的度量方式,如下
- 為樣本點(diǎn)倦淀,蒋畜,共個(gè)樣本點(diǎn)
- 為最相似的類別,即被分類至該類
- 為聚類中心撞叽,姻成,共個(gè)類別
2 應(yīng)用于圖像分割
我們知道:無論是灰度圖還是RGB彩色圖插龄,實(shí)際上都是存有灰度值的矩陣,所以科展,圖像的數(shù)據(jù)格式?jīng)Q定了在圖像分割方向上均牢,使用K-means聚類算法是十分容易也十分具體的。
2.1 Code
導(dǎo)入必要的包
import numpy as np
import random
損失函數(shù)
def loss_function(present_center, pre_center):
'''
損失函數(shù)才睹,計(jì)算上一次與當(dāng)前聚類中的差異(像素差的平方和)
:param present_center: 當(dāng)前聚類中心
:param pre_center: 上一次聚類中心
:return: 損失值
'''
present_center = np.array(present_center)
pre_center = np.array(pre_center)
return np.sum((present_center - pre_center)**2)
分類器
def classifer(intput_signal, center):
'''
分類器(通過當(dāng)前的聚類中心徘跪,給輸入圖像分類)
:param intput_signal: 輸入圖像
:param center: 聚類中心
:return: 標(biāo)簽矩陣
'''
input_row, input_col= intput_signal.shape # 輸入圖像的尺寸
pixls_labels = np.zeros((input_row, input_col)) # 儲(chǔ)存所有像素標(biāo)簽
pixl_distance_t = [] # 單個(gè)元素與所有聚類中心的距離,臨時(shí)用
for i in range(input_row):
for j in range(input_col):
# 計(jì)算每個(gè)像素與所有聚類中心的差平方
for k in range(len(center)):
distance_t = np.sum(abs((intput_signal[i, j]).astype(int) - center[k].astype(int))**2)
pixl_distance_t.append(distance_t)
# 差異最小則為該類
pixls_labels[i, j] = int(pixl_distance_t.index(min(pixl_distance_t)))
# 清空該list琅攘,為下一個(gè)像素點(diǎn)做準(zhǔn)備
pixl_distance_t = []
return pixls_labels
基于k-means算法的圖像分割
def k_means(input_signal, center_num, threshold):
'''
基于k-means算法的圖像分割(適用于灰度圖)
:param input_signal: 輸入圖像
:param center_num: 聚類中心數(shù)目
:param threshold: 迭代閾值
:return:
'''
input_signal_cp = np.copy(input_signal) # 輸入信號(hào)的副本
input_row, input_col = input_signal_cp.shape # 輸入圖像的尺寸
pixls_labels = np.zeros((input_row, input_col)) # 儲(chǔ)存所有像素標(biāo)簽
# 隨機(jī)初始聚類中心行標(biāo)與列標(biāo)
initial_center_row_num = [i for i in range(input_row)]
random.shuffle(initial_center_row_num)
initial_center_row_num = initial_center_row_num[:center_num]
initial_center_col_num = [i for i in range(input_col)]
random.shuffle(initial_center_col_num)
initial_center_col_num = initial_center_col_num[:center_num]
# 當(dāng)前的聚類中心
present_center = []
for i in range(center_num):
present_center.append(input_signal_cp[initial_center_row_num[i], initial_center_row_num[i]])
pixls_labels = classifer(input_signal_cp, present_center)
num = 0 # 用于記錄迭代次數(shù)
while True:
pre_centet = present_center.copy() # 儲(chǔ)存前一次的聚類中心
# 計(jì)算當(dāng)前聚類中心
for n in range(center_num):
temp = np.where(pixls_labels == n)
present_center[n] = sum(input_signal_cp[temp].astype(int)) / len(input_signal_cp[temp])
# 根據(jù)當(dāng)前聚類中心分類
pixls_labels = classifer(input_signal_cp, present_center)
# 計(jì)算上一次聚類中心與當(dāng)前聚類中心的差異
loss = loss_function(present_center, pre_centet)
num = num + 1
print("Step:"+ str(num) + " Loss:" + str(loss))
# 當(dāng)損失小于迭代閾值時(shí)垮庐,結(jié)束迭代
if loss <= threshold:
break
return pixls_labels