樹回歸（三）

模型樹

觀察下圖的數(shù)據(jù)分布，很容易發(fā)現(xiàn)可以用兩條直線來擬合數(shù)據(jù)拒逮，0.0 ~ 0.3是一條直線，0.3 ~ 1.0是一條直線，可以得到兩個線性模型彩倚，這就是所謂的分段線性模型。

可以用樹生成算法對數(shù)據(jù)進行切分扶平，然后將線性模型保存在葉節(jié)點帆离。

回顧樹回歸（一）的createTree()函數(shù)，里面有兩個參數(shù)leafType和errType還沒有改變過结澄。這里略作修改哥谷，就可以實現(xiàn)模型樹。

def linearSolve(dataSet):
    m,n = dataSet.shape
    X = np.mat(np.ones((m,n)))
    Y = np.mat(np.ones((m,1)))
    X[:, 1:n] = dataSet[:, 0:n-1]
    Y = dataSet[:, -1]
    xTx = X.T * X
    if np.linalg.det(xTx) == 0:
        raise NameError('This matrix is singular, cannot do inverse,\n\
        try increasing the second value of ops')
    ws = xTx.I * (X.T * Y)
    return ws, X, Y

def modelLeaf(dataSet):
    ws, X, Y = linearSolve(dataSet)
    return ws

def modelErr(dataSet):
    ws, X, Y = linearSolve(dataSet)
    yHat = X * ws
    return sum(np.power(Y - yHat, 2))

linearSolve()函數(shù)主要功能是將數(shù)據(jù)集格式化成目標(biāo)變量Y和自變量X麻献，并計算系數(shù)们妥。
modelLeaf()與regLeaf()類似，這里是負責(zé)生成葉節(jié)點的模型勉吻。
modelErr()與regErr()類似监婶，用于計算誤差。
到這里，模型樹的構(gòu)建代碼就完成了惑惶。只需要將參數(shù)換成modelLeaf和modelErr就可以了煮盼。

myMat = np.mat(loadDataSet('exp2.txt'))
createTree(myMat, modelLeaf, modelErr, (1, 10))

運行結(jié)果如下：

{'spInd': 0, 'spVal': 0.285477, 'left': matrix([[1.69855694e-03],
         [1.19647739e+01]]), 'right': matrix([[3.46877936],
         [1.18521743]])}

下面看一下擬合效果。

import matplotlib.pyplot as plt
import numpy as np

# 構(gòu)建模型樹
myMat = np.mat(loadDataSet('exp2.txt'))
modelTree = createTree(myMat, modelLeaf, modelErr, (1, 10))

X = np.linspace(0, 1, num=100)
# 直線1
ws1 = modelTree['left']
Y1 = X * float(ws1[1]) + float(ws1[0])
# 直線2
ws2 = modelTree['right']
Y2 = X * float(ws2[1]) + float(ws2[0])

plt.scatter(myMat[:,0].T.tolist()[0], myMat[:,1].T.tolist()[0])
plt.plot(X, Y1, color = 'red')
plt.plot(X, Y2, color = 'yellow')
plt.show()

結(jié)果如下

可以看到兩條直線都很好的擬合數(shù)據(jù)带污，并且模型樹的切分點0.285477也很符合數(shù)據(jù)的實際情況僵控。

樹回歸與標(biāo)準(zhǔn)回歸的比較

接下來將用一份非線性的數(shù)據(jù)測試模型樹、回歸樹和一般的回歸方法鱼冀，比較哪個最好报破。

# 回歸樹預(yù)測方法
def regTreeEval(model, inDat):
    return float(model)

# 模型樹預(yù)測方法
def modelTreeEval(model, inDat):
    n = inDat.shape[1]
    X = np.mat(np.ones((1, n+1)))
    X[:, 1:n+1] = inDat
    return float(X*model)

def treeForeCast(tree, inData, modelEval = regTreeEval):
    if not isTree(tree):
        return modelEval(tree, inData)
    if inData[tree['spInd']] > tree['spVal']:
        if isTree(tree['left']):
            return treeForeCast(tree['left'], inData, modelEval)
        else:
            return modelEval(tree['left'], inData)
    else:
        if isTree(tree['right']):
            return treeForeCast(tree['right'], inData, modelEval)
        else:
            return modelEval(tree['right'], inData)

def createForeCast(tree, testData, modelEval=regTreeEval):
    m = len(testData)
    yHat = np.mat(np.zeros((m,1)))
    for i in range(m):
        yHat[i, 0] = treeForeCast(tree, np.mat(testData[i]), modelEval)
    return yHat

用到的數(shù)據(jù)集的數(shù)據(jù)分布如下。

# 加載數(shù)據(jù)集
trainMat = np.mat(loadDataSet('bikeSpeedVsIq_train.txt'))
testMat = np.mat(loadDataSet('bikeSpeedVsIq_test.txt'))
# 構(gòu)建回歸樹
regTree = createTree(trainMat, ops=(1,20))
# 預(yù)測
regHat = createForeCast(regTree, testMat[:,0])
# 計算相關(guān)系數(shù)
np.corrcoef(regHat, testMat[:,1], rowvar=0)[0,1]

結(jié)果為0.964千绪。

# 構(gòu)建模型樹
modelTree = createTree(trainMat, modelLeaf, modelErr, ops=(1,20))
# 預(yù)測
modelHat = createForeCast(modelTree, testMat[:,0], modelTreeEval)
# 計算相關(guān)系數(shù)
np.corrcoef(modelHat, testMat[:,1], rowvar=0)[0,1]

結(jié)果為0.976泛烙。
從上面的結(jié)果來看，模型樹的效果要比回歸樹好翘紊。接下來看看一般的線性回歸效果如何蔽氨。

simpleRegHat = np.mat(np.zeros((testMat.shape[0],1)))
ws, X, Y = linearSolve(trainMat)
for i in range(testMat.shape[0]):
    simpleRegHat[i] = testMat[i,0]*ws[1,0] + ws[0,0]
np.corrcoef(simpleRegHat, testMat[:,1], rowvar=0)[0,1]

這里用前面已經(jīng)實現(xiàn)的linearSolve()函數(shù)來求解線性方程。然后循環(huán)計算預(yù)測值帆疟，最后計算得到的相關(guān)系數(shù)為0.943鹉究。
可以看到，該方法不如前面兩種樹回歸方法踪宠。所以自赔，樹回歸方法在預(yù)測復(fù)雜數(shù)據(jù)時會比簡單的線性模型要更有效。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末柳琢，一起剝皮案震驚了整個濱河市绍妨，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌柬脸，老刑警劉巖他去，帶你破解...
沈念sama閱讀 222,627評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異倒堕，居然都是意外死亡灾测，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,180評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門垦巴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來媳搪，“玉大人，你說我怎么就攤上這事骤宣∏乇” “怎么了？”我有些...
開封第一講書人閱讀 169,346評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵憔披，是天一觀的道長等限。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么精刷？我笑而不...
開封第一講書人閱讀 60,097評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任拗胜，我火速辦了婚禮，結(jié)果婚禮上怒允，老公的妹妹穿的比我還像新娘埂软。我一直安慰自己，他們只是感情好纫事，可當(dāng)我...
茶點故事閱讀 69,100評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布勘畔。她就那樣靜靜地躺著，像睡著了一般丽惶。火紅的嫁衣襯著肌膚如雪炫七。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,696評論 1贊 312
城市分裂傳說
那天钾唬，我揣著相機與錄音万哪，去河邊找鬼。笑死抡秆，一個胖子當(dāng)著我的面吹牛奕巍，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播儒士，決...
沈念sama閱讀 41,165評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼的止，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了着撩？” 一聲冷哼從身側(cè)響起诅福，我...
開封第一講書人閱讀 40,108評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎拖叙，沒想到半個月后氓润，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,646評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡憋沿，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,709評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年旺芽，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辐啄。...
茶點故事閱讀 40,861評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖运嗜，靈堂內(nèi)的尸體忽然破棺而出壶辜，到底是詐尸還是另有隱情，我是刑警寧澤担租，帶...
沈念sama閱讀 36,527評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布砸民，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏岭参。R本人自食惡果不足惜反惕，卻給世界環(huán)境...
茶點故事閱讀 42,196評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望演侯。院中可真熱鬧姿染，春花似錦、人聲如沸秒际。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,698評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽娄徊。三九已至闽颇，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間寄锐，已是汗流浹背兵多。一陣腳步聲響...
開封第一講書人閱讀 33,804評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留橄仆，地道東北人中鼠。一個月前我還...
沈念sama閱讀 49,287評論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長得像沿癞，于是被迫代替她去往敵國和親援雇。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,860評論 2贊 361

樹回歸（三）

模型樹

樹回歸與標(biāo)準(zhǔn)回歸的比較

推薦閱讀更多精彩內(nèi)容