樹回歸(三)

模型樹

觀察下圖的數(shù)據(jù)分布,很容易發(fā)現(xiàn)可以用兩條直線來擬合數(shù)據(jù)拒逮,0.0 ~ 0.3是一條直線,0.3 ~ 1.0是一條直線,可以得到兩個線性模型彩倚,這就是所謂的分段線性模型

可以用樹生成算法對數(shù)據(jù)進行切分扶平,然后將線性模型保存在葉節(jié)點帆离。

回顧樹回歸(一)createTree()函數(shù),里面有兩個參數(shù)leafTypeerrType還沒有改變過结澄。這里略作修改哥谷,就可以實現(xiàn)模型樹

def linearSolve(dataSet):
    m,n = dataSet.shape
    X = np.mat(np.ones((m,n)))
    Y = np.mat(np.ones((m,1)))
    X[:, 1:n] = dataSet[:, 0:n-1]
    Y = dataSet[:, -1]
    xTx = X.T * X
    if np.linalg.det(xTx) == 0:
        raise NameError('This matrix is singular, cannot do inverse,\n\
        try increasing the second value of ops')
    ws = xTx.I * (X.T * Y)
    return ws, X, Y

def modelLeaf(dataSet):
    ws, X, Y = linearSolve(dataSet)
    return ws

def modelErr(dataSet):
    ws, X, Y = linearSolve(dataSet)
    yHat = X * ws
    return sum(np.power(Y - yHat, 2))

linearSolve()函數(shù)主要功能是將數(shù)據(jù)集格式化成目標(biāo)變量Y和自變量X麻献,并計算系數(shù)们妥。
modelLeaf()regLeaf()類似,這里是負責(zé)生成葉節(jié)點的模型勉吻。
modelErr()regErr()類似监婶,用于計算誤差。
到這里,模型樹的構(gòu)建代碼就完成了惑惶。只需要將參數(shù)換成modelLeafmodelErr就可以了煮盼。

myMat = np.mat(loadDataSet('exp2.txt'))
createTree(myMat, modelLeaf, modelErr, (1, 10))

運行結(jié)果如下:

{'spInd': 0, 'spVal': 0.285477, 'left': matrix([[1.69855694e-03],
         [1.19647739e+01]]), 'right': matrix([[3.46877936],
         [1.18521743]])}

下面看一下擬合效果。

import matplotlib.pyplot as plt
import numpy as np

# 構(gòu)建模型樹
myMat = np.mat(loadDataSet('exp2.txt'))
modelTree = createTree(myMat, modelLeaf, modelErr, (1, 10))

X = np.linspace(0, 1, num=100)
# 直線1
ws1 = modelTree['left']
Y1 = X * float(ws1[1]) + float(ws1[0])
# 直線2
ws2 = modelTree['right']
Y2 = X * float(ws2[1]) + float(ws2[0])

plt.scatter(myMat[:,0].T.tolist()[0], myMat[:,1].T.tolist()[0])
plt.plot(X, Y1, color = 'red')
plt.plot(X, Y2, color = 'yellow')
plt.show()

結(jié)果如下


可以看到兩條直線都很好的擬合數(shù)據(jù)带污,并且模型樹的切分點0.285477也很符合數(shù)據(jù)的實際情況僵控。

樹回歸與標(biāo)準(zhǔn)回歸的比較

接下來將用一份非線性的數(shù)據(jù)測試模型樹、回歸樹和一般的回歸方法鱼冀,比較哪個最好报破。

# 回歸樹預(yù)測方法
def regTreeEval(model, inDat):
    return float(model)

# 模型樹預(yù)測方法
def modelTreeEval(model, inDat):
    n = inDat.shape[1]
    X = np.mat(np.ones((1, n+1)))
    X[:, 1:n+1] = inDat
    return float(X*model)

def treeForeCast(tree, inData, modelEval = regTreeEval):
    if not isTree(tree):
        return modelEval(tree, inData)
    if inData[tree['spInd']] > tree['spVal']:
        if isTree(tree['left']):
            return treeForeCast(tree['left'], inData, modelEval)
        else:
            return modelEval(tree['left'], inData)
    else:
        if isTree(tree['right']):
            return treeForeCast(tree['right'], inData, modelEval)
        else:
            return modelEval(tree['right'], inData)

def createForeCast(tree, testData, modelEval=regTreeEval):
    m = len(testData)
    yHat = np.mat(np.zeros((m,1)))
    for i in range(m):
        yHat[i, 0] = treeForeCast(tree, np.mat(testData[i]), modelEval)
    return yHat

用到的數(shù)據(jù)集的數(shù)據(jù)分布如下。


# 加載數(shù)據(jù)集
trainMat = np.mat(loadDataSet('bikeSpeedVsIq_train.txt'))
testMat = np.mat(loadDataSet('bikeSpeedVsIq_test.txt'))
# 構(gòu)建回歸樹
regTree = createTree(trainMat, ops=(1,20))
# 預(yù)測
regHat = createForeCast(regTree, testMat[:,0])
# 計算相關(guān)系數(shù)
np.corrcoef(regHat, testMat[:,1], rowvar=0)[0,1]

結(jié)果為0.964千绪。

# 構(gòu)建模型樹
modelTree = createTree(trainMat, modelLeaf, modelErr, ops=(1,20))
# 預(yù)測
modelHat = createForeCast(modelTree, testMat[:,0], modelTreeEval)
# 計算相關(guān)系數(shù)
np.corrcoef(modelHat, testMat[:,1], rowvar=0)[0,1]

結(jié)果為0.976泛烙。
從上面的結(jié)果來看,模型樹的效果要比回歸樹好翘紊。接下來看看一般的線性回歸效果如何蔽氨。

simpleRegHat = np.mat(np.zeros((testMat.shape[0],1)))
ws, X, Y = linearSolve(trainMat)
for i in range(testMat.shape[0]):
    simpleRegHat[i] = testMat[i,0]*ws[1,0] + ws[0,0]
np.corrcoef(simpleRegHat, testMat[:,1], rowvar=0)[0,1]

這里用前面已經(jīng)實現(xiàn)的linearSolve()函數(shù)來求解線性方程。然后循環(huán)計算預(yù)測值帆疟,最后計算得到的相關(guān)系數(shù)為0.943鹉究。
可以看到,該方法不如前面兩種樹回歸方法踪宠。所以自赔,樹回歸方法在預(yù)測復(fù)雜數(shù)據(jù)時會比簡單的線性模型要更有效。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末柳琢,一起剝皮案震驚了整個濱河市绍妨,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌柬脸,老刑警劉巖他去,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異倒堕,居然都是意外死亡灾测,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進店門垦巴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來媳搪,“玉大人,你說我怎么就攤上這事骤宣∏乇” “怎么了?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵憔披,是天一觀的道長等限。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么精刷? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任拗胜,我火速辦了婚禮,結(jié)果婚禮上怒允,老公的妹妹穿的比我還像新娘埂软。我一直安慰自己,他們只是感情好纫事,可當(dāng)我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布勘畔。 她就那樣靜靜地躺著,像睡著了一般丽惶。 火紅的嫁衣襯著肌膚如雪炫七。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天钾唬,我揣著相機與錄音万哪,去河邊找鬼。 笑死抡秆,一個胖子當(dāng)著我的面吹牛奕巍,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播儒士,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼的止,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了着撩?” 一聲冷哼從身側(cè)響起诅福,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎拖叙,沒想到半個月后氓润,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡憋沿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年旺芽,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辐啄。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖运嗜,靈堂內(nèi)的尸體忽然破棺而出壶辜,到底是詐尸還是另有隱情,我是刑警寧澤担租,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布砸民,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏岭参。R本人自食惡果不足惜反惕,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望演侯。 院中可真熱鬧姿染,春花似錦、人聲如沸秒际。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽娄徊。三九已至闽颇,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間寄锐,已是汗流浹背兵多。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留橄仆,地道東北人中鼠。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像沿癞,于是被迫代替她去往敵國和親援雇。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容