聚類算法---如何對NBA控球后衛(wèi)進行聚類分析谍肤?

KMeans-Cluster

Cluster the dataset of NBA Player using KMeans method

數(shù)據(jù)下載地址:https://github.com/huangtaosdt/KMeans-Cluster/tree/master/data

該項目為KMeans的實現(xiàn)算法啦租,整個算法分為三部分:
1.數(shù)據(jù)準備
讀入數(shù)據(jù),提取控球后衛(wèi)球員谣沸,新增特征列:ppg(每場得分)刷钢,atr(助攻失誤率)
使用scatter查看分布情況。

import pandas as pd
nba=pd.read_csv('./data/nba_2013.csv')

#Data preparing
point_guards=nba[nba['pos']=="PG"]
point_guards.head()

#Calculate Points Per Game
point_guards['ppg'] = point_guards['pts'] / point_guards['g']
# Sanity check, make sure ppg = pts/g
point_guards[['pts', 'g', 'ppg']].head(5)

#Calculate Assist Turnover Ratio
point_guards = point_guards[point_guards['tov'] != 0]
point_guards['atr']=point_guards['ast']/point_guards['tov']

#Visualize data
%matplotlib inline
import matplotlib.pyplot as plt

plt.scatter(point_guards['ppg'], point_guards['atr'], c='y')
plt.title("Point Guards")
plt.xlabel('Points Per Game', fontsize=13)
plt.ylabel('Assist Turnover Ratio', fontsize=13)
plt.show()

2.算法實現(xiàn)

  • step0
    初始化簇心--為方便操作乳附,使用dictionary存儲簇心
    #Initialize centroids
    import numpy as np
    num_clusters=5
    random_initial_points=np.random.choice(point_guards.index,size=num_clusters)
    centroids=point_guards.loc[random_initial_points]
    
    #Visualize Centroids
    plt.scatter(point_guards['ppg'], point_guards['atr'], c='yellow')
    plt.scatter(centroids['ppg'], centroids['atr'], c='red')
    plt.title("Centroids")
    plt.xlabel('Points Per Game', fontsize=13)
    plt.ylabel('Assist Turnover Ratio', fontsize=13)
    plt.show()
    
    #Convert centroids list as dictionary
    def centroids_to_dict(centroids):
        dictionary={}
        counter=0
        for index,row in centroids.iterrows():
            dictionary[counter]=[row['ppg'],row['atr']]
            counter+=1
        return dictionary
    centroids_dict = centroids_to_dict(centroids)
    

簇心:
{0: [2.84, 2.7701149425287355],
1: [5.333333333333333, 2.0],
2: [8.354430379746836, 2.424],
3: [8.958333333333334, 1.9914529914529915],
4: [19.024390243902438, 1.7840909090909092]}

  • step1
    計算每個球員到各簇心的距離,根據(jù)其最短距離生成cluster column.
    # Step 1 
    #Calculate Euclidean Distance
    def calculate_distance(centroid,playerValues):
        distances=[]
        #list不能直接相減
    
        distance=sum((np.array(centroid)-np.array(playerValues))**2)
        distances.append(distance)
        return np.sqrt(distances)
        
    #Assign each point to cluster
    def assign_to_cluster(row):
        player=[row['ppg'],row['atr']]
        lowest_dist=-1
        clus_id=-1
        for clu_id,centroid in centroids_dict.items():
            distance=calculate_distance(centroid,player)
            if lowest_dist==-1:
                lowest_dist=distance
                clus_id=clu_id
            elif distance<lowest_dist:
                lowest_dist=distance
                clus_id=clu_id
        return clus_id
    point_guards['cluster']=point_guards.apply(assign_to_cluster,axis=1)
    
    #Visualize result
    def visualize_clusters(df,num_clusters):
        colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k']
        for i in range(num_clusters):
            clustered_df = df[df['cluster'] == i]
            plt.scatter(clustered_df['ppg'],clustered_df['atr'],c=colors[i])
        plt.xlabel('Points Per Game', fontsize=13)
        plt.ylabel('Assist Turnover Ratio', fontsize=13)
        plt.show()
    visualize_clusters(point_guards, 5)
    
  • step2
    重新計算各簇簇心伴澄,重復step1.
    # Step 2  Recalculate the centroids for each cluster.
    
    def recalculate_centroids(df):
        new_centroids_dict={}
        for clu_id in range(num_clusters):
            df_clus_id=df[df['cluster']==clu_id]
            mean_ppg=df_clus_id['ppg'].mean()
            mean_atr=df_clus_id['atr'].mean()
            new_centroids_dict[clu_id]=[mean_ppg,mean_atr]
        return new_centroids_dict
        
    centroids_dict = recalculate_centroids(point_guards)
    
    #Repeat above steps
    point_guards['cluster']=point_guards.apply(assign_to_cluster,axis=1)
    visualize_clusters(point_guards, num_clusters)
    

簇心:
{0: [2.6178602133875315, 2.12795670952364],
1: [5.032680887069763, 1.9577408362904933],
2: [7.587016263538343, 2.7497928951953226],
3: [10.743029331820049, 2.3538881165489767],
4: [17.993849912411445, 2.3359021336098063]}


  • 重復若干次step12赋除、2,查看聚類結果
centroids_dict = recalculate_centroids(point_guards)
point_guards['cluster'] = point_guards.apply( assign_to_cluster, axis=1)
visualize_clusters(point_guards, num_clusters)

總結:
以上為KMeans實現(xiàn)算法非凌,sklearn library中已經(jīng)實現(xiàn)了KMeans举农。在重復聚簇時,sklearn采取的方法是每次重復聚簇時簇心均為隨機產(chǎn)生敞嗡,從而可以有效降模型出現(xiàn)的偏差颁糟,過程:

#Do it using sklearn library
from sklearn.cluster import KMeans

km=KMeans(n_clusters=5,random_state=1)
km.fit(point_guards[['ppg','atr']])
point_guards['cluster'] = km.labels_
visualize_clusters(point_guards, num_clusters)
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末航背,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子棱貌,更是在濱河造成了極大的恐慌玖媚,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件婚脱,死亡現(xiàn)場離奇詭異今魔,居然都是意外死亡,警方通過查閱死者的電腦和手機障贸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門错森,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人篮洁,你說我怎么就攤上這事涩维。” “怎么了袁波?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵激挪,是天一觀的道長。 經(jīng)常有香客問我锋叨,道長垄分,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任娃磺,我火速辦了婚禮薄湿,結果婚禮上,老公的妹妹穿的比我還像新娘偷卧。我一直安慰自己豺瘤,他們只是感情好,可當我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般瘤礁。 火紅的嫁衣襯著肌膚如雪戒良。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天青伤,我揣著相機與錄音,去河邊找鬼。 笑死泛领,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的敛惊。 我是一名探鬼主播渊鞋,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了锡宋?” 一聲冷哼從身側響起儡湾,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎执俩,沒想到半個月后徐钠,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡奠滑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年丹皱,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宋税。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡摊崭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出杰赛,到底是詐尸還是另有隱情呢簸,我是刑警寧澤,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布乏屯,位于F島的核電站根时,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏辰晕。R本人自食惡果不足惜蛤迎,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望含友。 院中可真熱鬧替裆,春花似錦、人聲如沸窘问。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽惠赫。三九已至把鉴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間儿咱,已是汗流浹背庭砍。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留概疆,地道東北人逗威。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像岔冀,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容