Python-機器學習之Decision Trees

1.代碼

`from math import log
import operator
def calcShannonEnt(dataSet):
numEntries = len(dataSet)
labelCounts = {}
for featVec in dataSet:
currentLabel = featVec[-1]
if currentLabel not in labelCounts.keys():
labelCounts[currentLabel] = 0
labelCounts[currentLabel] += 1
shannonEnt = 0.0
for key in labelCounts:
prob = float(labelCounts[key])/numEntries
shannonEnt -= prob*log(prob,2)
return shannonEnt

def createDataSet():
dataSet = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]
labels = ['no surfacing','flippers']
return dataSet,labels

def splitDataSet(dataSet,axis,value):
retDataSet = []
for featVec in dataSet:
if featVec[axis] == value:
reducedFeatVec = featVec[:axis]
reducedFeatVec.extend(featVec[axis+1:])
retDataSet.append(reducedFeatVec)
return retDataSet

def chooseBestFeatureToSplit(dataSet):
numFeatures = len(dataSet[0]) - 1
baseEntropy = calcShannonEnt(dataSet)
bestInfoGain = 0.0; bestFeature = -1
for i in range(numFeatures):
featList = [example[i] for example in dataSet]
uniqueVals = set(featList)
newEntropy = 0.0
for value in uniqueVals:
subDataSet = splitDataSet(dataSet,i,value)
prob = len(subDataSet)/float(len(dataSet))
newEntropy += prob*calcShannonEnt(subDataSet)
infoGain = baseEntropy - newEntropy
if (infoGain > bestInfoGain):
bestInfoGain = infoGain
bestFeature = i
return bestFeature

def majorityCnt(classList):
classCount = {}
for vote in classList:
if vote not in classCount.keys():
classCount[vote] = 0
classCount[vote] += 1
sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse = True)
return sortedClassCount[0][0]

def createTree(dataSet,labels):
classList = [example[-1] for example in dataSet]
if classList.count(classList[0]) == len(classList):
return classList[0]
if len(dataSet[0]) == 1:
return majorityCnt(classList)
bestFeat = chooseBestFeatureToSplit(dataSet)
bestFeatLabel = labels[bestFeat]
myTree = {bestFeatLabel:{}}
del(labels[bestFeat])
featValues = [example[bestFeat] for example in dataSet]
uniqueVals = set(featValues)
for value in uniqueVals:
subLabels = labels[:]
myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
return myTree
`

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末鹿榜,一起剝皮案震驚了整個濱河市场躯,隨后出現的幾起案子互躬,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件饱须,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機蚕泽,發(fā)現死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人须妻,你說我怎么就攤上這事仔蝌。” “怎么了荒吏?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵敛惊,是天一觀的道長。 經常有香客問我绰更,道長瞧挤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任儡湾,我火速辦了婚禮特恬,結果婚禮上,老公的妹妹穿的比我還像新娘徐钠。我一直安慰自己癌刽,他們只是感情好,可當我...
    茶點故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布尝丐。 她就那樣靜靜地躺著显拜,像睡著了一般。 火紅的嫁衣襯著肌膚如雪爹袁。 梳的紋絲不亂的頭發(fā)上远荠,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天,我揣著相機與錄音失息,去河邊找鬼譬淳。 笑死,一個胖子當著我的面吹牛盹兢,可吹牛的內容都是我干的邻梆。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼蛤迎,長吁一口氣:“原來是場噩夢啊……” “哼确虱!你這毒婦竟也來了?” 一聲冷哼從身側響起替裆,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤校辩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后辆童,有當地人在樹林里發(fā)現了一具尸體宜咒,經...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年把鉴,在試婚紗的時候發(fā)現自己被綠了故黑。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片儿咱。...
    茶點故事閱讀 40,127評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖场晶,靈堂內的尸體忽然破棺而出混埠,到底是詐尸還是另有隱情,我是刑警寧澤诗轻,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布钳宪,位于F島的核電站,受9級特大地震影響扳炬,放射性物質發(fā)生泄漏吏颖。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一恨樟、第九天 我趴在偏房一處隱蔽的房頂上張望半醉。 院中可真熱鬧,春花似錦劝术、人聲如沸缩多。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瞧壮。三九已至登馒,卻和暖如春匙握,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背陈轿。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工圈纺, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人麦射。 一個月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓蛾娶,卻偏偏與公主長得像,于是被迫代替她去往敵國和親潜秋。 傳聞我的和親對象是個殘疾皇子蛔琅,可洞房花燭夜當晚...
    茶點故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內容