線性回歸分析

線性回歸分析應(yīng)該是我們最常用的分析模型了捌肴,根據(jù)身高和體重預(yù)測(cè)年齡

1.回歸分析的基本概念

§回歸分析假定自變量對(duì)因變量的影響強(qiáng)度是始終保持不變的蹬叭,如公式所示:


公式(1)

對(duì)于因變量的預(yù)測(cè)值可以被分解成兩部分:

常量(constant):x取值為零時(shí)y的平均估計(jì)量,可以被看成是一個(gè)基線水平

回歸部分:它刻畫因變量Y的取值中哭靖,由因變量Y與自變量X的線性關(guān)系所決定的部分具垫,即可以由X直接估計(jì)的部分

其中的參數(shù)和含義如下:

?:y的估計(jì)值(所估計(jì)的平均水平),表示給定自變量的取值時(shí)试幽,根據(jù)公式算得的y的估計(jì)值筝蚕;

a:常數(shù)項(xiàng),表示自變量取值均為0時(shí)因變量的平均水平铺坞,即回歸直線在y軸上的截距

? ? ? ?(多數(shù)情況下沒有實(shí)際意義起宽,研究者也不關(guān)心)

b:回歸系數(shù),在多變量回歸中也稱偏回歸系數(shù)济榨。自變量x 改變一個(gè)單位坯沪,y估計(jì)值的改變量。即回歸直線 ? ? ? 的斜率

2.其他的一些參數(shù)和概念

殘差:估計(jì)值和每一個(gè)實(shí)測(cè)值之間的差被稱為殘差擒滑。它刻畫了因變量y除了自變量x以外的其它所有未進(jìn)入 ? ? ? ? ? ? ? 該模型腐晾,或未知但可能與y有關(guān)的隨機(jī)和非隨機(jī)因素共同引起的變異,即不能由x直接估計(jì)的部分

模型適用條件:§線性趨勢(shì) ?§獨(dú)立性 ?§正態(tài)性 ?§方差齊性

? ? ? ? ? ? ? ? ? ? ? ? 如果只是探討自變量與因變量間的關(guān)系丐一,則后兩個(gè)條件可以適當(dāng)放寬

樣本量 :根據(jù)經(jīng)驗(yàn)藻糖,記錄數(shù)應(yīng)當(dāng)在希望分析的自變量數(shù)的20倍以上為宜

偏回歸系數(shù):

? ? ? 相應(yīng)的自變量上升一個(gè)單位時(shí),因變量取值的變動(dòng)情況库车,即自變量對(duì)因變量的影響程度

標(biāo)化偏回歸系數(shù):量綱問題巨柒,忽略量綱之后的回歸系數(shù)

決定系數(shù):

? ? ? ? 相應(yīng)的相關(guān)系數(shù)的平方,用R2表示柠衍,它反映因變量y的全部變異中能夠通過回歸關(guān)系被自變量解釋的比例

3.分析步驟

3..1自變量與因變量的相關(guān)趨勢(shì)(散點(diǎn)圖)進(jìn)行描述性分析洋满,找出強(qiáng)影響點(diǎn)

3.2對(duì)數(shù)據(jù)的分布,分析變量的正態(tài)性珍坊,和方差齊次性的問題

3.3進(jìn)行線性回歸建模

3.4考慮殘差之間是否獨(dú)立和殘差的分布是否符合正態(tài)分布

P-P圖牺勾,殘差分布圖

4.具體實(shí)現(xiàn)

4.1一般求解

-----------python的實(shí)現(xiàn) (1)一般求解


4.1(-)


4.1(2)

--------python的實(shí)現(xiàn) (1)一般求解-代碼

#線性回歸誤差平方和最小

from? numpy import? *

import? xlrd

import? xlwt

import? matplotlib.pyplot as plt

#導(dǎo)入數(shù)據(jù)

def loadDataSet(x=r"C:\Users\mei-huang\Desktop\data2.xlsx",y=u'回歸數(shù)據(jù)'):

? ? data=xlrd.open_workbook(x) #excel的位置

? ? try:

? ? ? ? table = data.sheet_by_name(y)? # 通過名稱獲取? #excel的工作表名 列名放置在第一行

? ? except:

? ? ? ? print("no sheet? in %s named? sheet1"%data)

? ? print(table.nrows,table.ncols)

? ? x_data=[];y_data=[];labels=[]

? ? for? n? in? range(1,table.nrows): #,

? ? ? ? col = []

? ? ? ? for? c in range(table.ncols): #

? ? ? ? ? ? # print(table.cell(n,c).value,type(table.cell(n,c).value))

? ? ? ? ? ? x=table.cell(n,c).value

? ? ? ? ? ? col.append(float(x))

? ? ? ? x_data.append(col[0:-1])

? ? ? ? y_data.append(col[-1])

? ? for n in range(1):

? ? ? ? for c in range(table.ncols):

? ? ? ? ? ? labels.append(table.cell(n,c).value)

? ? return? x_data,y_data,labels

#k值求解

def standRegres(xArr,yArr):

? ? xMat = mat(xArr); yMat = mat(yArr).T #對(duì)變量進(jìn)行轉(zhuǎn)置

? ? xTx = xMat.T*xMat #進(jìn)行矩陣運(yùn)算

? ? if linalg.det(xTx) == 0.0:

? ? ? ? print ("This matrix is singular, cannot do inverse")

? ? ? ? return

? ? ws = xTx.I * (xMat.T*yMat)

? ? return ws

#? 返回誤差平方和

def rssError(yArr,yHatArr):

? ? yArr=array(yArr);yHatArr=array(yHatArr)

? ? # print(yArr[0,1:10],yHatArr[0,1:10])

? ? return ((yArr-yHatArr)**2).sum()

#加載數(shù)據(jù)

xx,yy,labels= loadDataSet()

xMat=mat(xx[0:1000])

yMat=mat(yy[0:1000])

# 對(duì)變量進(jìn)行描述性統(tǒng)計(jì)分析 繪制三點(diǎn)圖和直方圖

fig1 = plt.figure()

fig2=plt.figure()

fig3=plt.figure()

ax3 = fig3.add_subplot(111)

ax3.hist(yMat.flatten().A[0],bins=6,stacked=True)

ax3.set_title("%s-hist" %(labels[-1]))

for? n in range(xMat.shape[1]):

? ? ax = fig1.add_subplot(2,2,n+1)

? ? ax.scatter(xMat[:,n].flatten().A[0],yMat.flatten().A[0])

? ? ax.set_title("%s-%splot"%(labels[n],labels[-1]))

? ? ax2 = fig2.add_subplot(2, 2, n+1)

? ? ax2.hist(xMat[:,n])

? ? ax2.set_title("%s-hist" %(labels[n]))

plt.show() #顯示變量的分布圖和與x的關(guān)系圖

# #參數(shù)求解方式1-常規(guī)求解

# #一般線性回歸

# #計(jì)算回歸系數(shù)和預(yù)測(cè)值

k=standRegres(xMat,yMat)

print(k.T,k.shape)

y1=xMat*k

#計(jì)算真實(shí)值和預(yù)測(cè)值的相關(guān)系數(shù)

r=corrcoef(y1.T,yMat) #0.44 比較差的相關(guān)系數(shù)

print(r)

#? 返回誤差平方和

print(rssError(y1.T,yMat))

fig = plt.figure()

ax = fig.add_subplot(111)

# ax.scatter(yMat.flatten().A[0], y1.flatten().A[0])

# yMat=yMat[:,0].argsort(0) #將數(shù)組的數(shù)值從小到大排序,并按照對(duì)應(yīng)的索引值輸出

# print(yMat)

# yMat=yMat[yMat][:,0,:]

# y1=y1[yMat][:,0,:]

# yMat.flatten().A[0].sort()

# y1.flatten().A[0].sort()

ax.plot(range(1000),yMat.flatten().A[0],? mec='r', mfc='w')

ax.plot(range(1000),y1.flatten().A[0],? mec='g', mfc='w')

plt.show()

#寫出結(jié)果到文件

book = xlwt.Workbook(encoding='utf-8', style_compression=0)

sheet = book.add_sheet('test', cell_overwrite_ok=True)

n=0

for? x in? range(k.shape[0]) :

? ? sheet.write(n, 1, k[x,0])

? ? n+=1

book.save(r'e:\test3.csv')

4.2加權(quán)系數(shù)回歸 ?


4.2(1)


4.2(2)

from numpy import *

import? xlrd

import? xlwt

import? matplotlib.pyplot as plt

#導(dǎo)入數(shù)據(jù)

def loadDataSet(x=r"C:\Users\mei-huang\Desktop\data2.xlsx",y=u'回歸數(shù)據(jù)'):

? ? data=xlrd.open_workbook(x) #打開文件位置

? ? try:

? ? ? ? table = data.sheet_by_name(y)? # 打開工作簿名稱

? ? except:

? ? ? ? print("no sheet? in %s named? sheet1"%data)

? ? print(table.nrows,table.ncols)? ? #返回?cái)?shù)據(jù)有多少行阵漏,有多少列

? ? x_data=[];y_data=[];labels=[]? ? #建立三個(gè)列表存放禽最,變量x,變量y腺怯,變量名

? ? for? n? in? range(1,table.nrows): #對(duì)行進(jìn)行循環(huán)

? ? ? ? col = []? ? ? ? ? ? ? ? #存放一行內(nèi)容

? ? ? ? for? c in range(table.ncols): #? #對(duì)列進(jìn)行循環(huán)

? ? ? ? ? ? # print(table.cell(n,c).value,type(table.cell(n,c).value))

? ? ? ? ? ? x=table.cell(n,c).value? #取出數(shù)值

? ? ? ? ? ? col.append(float(x))? ? #添加到col中

? ? ? ? x_data.append(col[0:-1])? ? #添加x變量到x列表

? ? ? ? y_data.append(col[-1])? ? #添加y 到y(tǒng)列表

? ? for n in range(1):? ? ? ? ? ? #添加列名到標(biāo)簽列表

? ? ? ? for c in range(table.ncols):

? ? ? ? ? ? labels.append(table.cell(n,c).value)

? ? return? x_data,y_data,labels

#? 返回誤差平方和

def rssError(yArr,yHatArr):

? ? yArr=array(yArr);yHatArr=array(yHatArr) #把傳入y1,y2的數(shù)據(jù)類型變成數(shù)組

? ? # print(yArr[0,1:10],yHatArr[0,1:10])

? ? return ((yArr-yHatArr)**2).sum()? #返回(y1-y2)的平方和)

# 參數(shù)求解方式2-局部加權(quán)線性回歸(LWLR)

'''正常線性回歸袱饭,把所有的點(diǎn)看的一樣重要川无,權(quán)重回歸對(duì)于偏離較遠(yuǎn)的數(shù)據(jù)點(diǎn)的影響進(jìn)行調(diào)低,降低對(duì)擬合直線的影響

? ? k=1表示正常的線性回歸-所有的點(diǎn)都一樣虑乖,我們可以調(diào)整k得到不同效果懦趋,然后用這個(gè)k值對(duì)新的數(shù)據(jù)進(jìn)行擬合'''

def lwlr(testPoint,xArr,yArr,k=1.0): #(需要預(yù)測(cè)數(shù)據(jù)集合,樣本數(shù)據(jù)的x變量疹味,樣本數(shù)據(jù)的y變量仅叫,衰減系數(shù))

? ? xMat = mat(xArr); yMat = mat(yArr).T

? ? m = shape(xMat)[0]? #樣本數(shù)據(jù)的行數(shù)

? ? weights = mat(eye((m)))? ? ? #創(chuàng)建對(duì)角矩陣(對(duì)角線上是1,其余都是0)

? ? for j in range(m):? #對(duì)測(cè)試數(shù)據(jù)集合的每一行數(shù)據(jù)進(jìn)行去那種調(diào)整

? ? ? ? # 權(quán)重值大小以指數(shù)級(jí)衰減

? ? ? ? diffMat = testPoint - xMat[j,:] #

? ? ? ? weights[j,j] = exp(diffMat*diffMat.T/(-2.0*k**2)) #距離越遠(yuǎn)權(quán)重越小

? ? xTx = xMat.T * (weights * xMat)? #返回調(diào)整權(quán)重后的數(shù)值x

? ? if linalg.det(xTx) == 0.0:

? ? ? ? print ("This matrix is singular, cannot do inverse")

? ? ? ? return

? ? ws = xTx.I * (xMat.T * (weights * yMat)) #得到回歸系數(shù)

? ? # print(ws)

? ? return testPoint * ws

def lwlrTest(testArr,xArr,yArr,k=1.0): #k=1對(duì)所有的點(diǎn)賦予相同的權(quán)重糙捺,等價(jià)于最小二乘法

? ? m = shape(testArr)[0]? #需要預(yù)測(cè)的數(shù)據(jù)的行數(shù)

? ? yHat = zeros(m)? #建立空數(shù)組

? ? for i in range(m): #將預(yù)測(cè)的數(shù)據(jù)返回

? ? ? ? yHat[i]= lwlr(testArr[i],xArr,yArr,k)

? ? return yHat #返回預(yù)測(cè)結(jié)果

#讀入數(shù)據(jù) 1 已經(jīng)知道結(jié)果的數(shù)據(jù)集合

xx,yy,labels= loadDataSet()

xMat=mat(xx[0:100])

yMat=mat(yy[0:100])

#讀入數(shù)據(jù)2 需要預(yù)測(cè)的數(shù)據(jù)集合

xx1,xx2,labels1= loadDataSet(x=r"C:\Users\mei-huang\Desktop\data2.xlsx",y=u'預(yù)測(cè)數(shù)據(jù)') #在excel新建工作簿诫咱,只放入x的數(shù)據(jù)

xMat2=hstack((mat(xx1),mat(xx2).T)) #把數(shù)據(jù)按照列合并

#測(cè)試不同的k值查看對(duì)已經(jīng)知道結(jié)果的數(shù)據(jù)進(jìn)行擬合 ,返回?cái)M合的曲線和擬合的誤差

y2=lwlrTest(xMat,xMat,yMat,0.9)? #調(diào)整k等于0.9

r=corrcoef(y2.T,yMat)[0,1] #返回相關(guān)系數(shù)

dis=rssError(y2.T,yMat)# 返回誤差

fig = plt.figure()

ax = fig.add_subplot(111)

ax.plot(range(len(yMat.flatten().A[0])),yMat.flatten().A[0],? mec='r', mfc='w')

ax.plot(range(len(mat(y2).flatten().A[0])),mat(y2).flatten().A[0],? mec='g', mfc='w')

plt.annotate(u"r:%s\ndis:%s"%(r,dis),xy=(75,23.75),xytext=(80,23.7),

? ? ? ? ? ? # arrowprops=dict(facecolor="r", headlength=1, headwidth=3, width=2)

? ? ? ? ? ? )

plt.show()

#對(duì)新的的數(shù)據(jù)進(jìn)行擬合

y3=lwlrTest(xMat2,xMat,yMat,0.9)? #經(jīng)過測(cè)試k=0.9的效果最理想洪灯,新數(shù)據(jù)xMat2坎缭,用k=0.9做擬合

# print(y3)

#將對(duì)新數(shù)據(jù)的預(yù)測(cè)結(jié)果寫入到指定文件

book = xlwt.Workbook(encoding='utf-8', style_compression=0)

sheet = book.add_sheet('test', cell_overwrite_ok=True)

n=0

for? x in? range(len(y3)) :

? ? sheet.write(n, 1, y3[x])

? ? n+=1

book.save(r'e:\test4.csv')

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市签钩,隨后出現(xiàn)的幾起案子掏呼,更是在濱河造成了極大的恐慌,老刑警劉巖铅檩,帶你破解...
    沈念sama閱讀 212,816評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件憎夷,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡昧旨,警方通過查閱死者的電腦和手機(jī)拾给,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來兔沃,“玉大人蒋得,你說我怎么就攤上這事≌呈埃” “怎么了窄锅?”我有些...
    開封第一講書人閱讀 158,300評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)缰雇。 經(jīng)常有香客問我入偷,道長(zhǎng),這世上最難降的妖魔是什么械哟? 我笑而不...
    開封第一講書人閱讀 56,780評(píng)論 1 285
  • 正文 為了忘掉前任疏之,我火速辦了婚禮,結(jié)果婚禮上暇咆,老公的妹妹穿的比我還像新娘锋爪。我一直安慰自己丙曙,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評(píng)論 6 385
  • 文/花漫 我一把揭開白布其骄。 她就那樣靜靜地躺著亏镰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拯爽。 梳的紋絲不亂的頭發(fā)上索抓,一...
    開封第一講書人閱讀 50,084評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音毯炮,去河邊找鬼逼肯。 笑死,一個(gè)胖子當(dāng)著我的面吹牛桃煎,可吹牛的內(nèi)容都是我干的篮幢。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼为迈,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼三椿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起曲尸,我...
    開封第一講書人閱讀 37,912評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤赋续,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后另患,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纽乱,經(jīng)...
    沈念sama閱讀 44,355評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評(píng)論 2 327
  • 正文 我和宋清朗相戀三年昆箕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鸦列。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,809評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鹏倘,死狀恐怖薯嗤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情纤泵,我是刑警寧澤骆姐,帶...
    沈念sama閱讀 34,504評(píng)論 4 334
  • 正文 年R本政府宣布,位于F島的核電站捏题,受9級(jí)特大地震影響玻褪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜公荧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評(píng)論 3 317
  • 文/蒙蒙 一带射、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧循狰,春花似錦窟社、人聲如沸券勺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽关炼。三九已至,卻和暖如春钠四,著一層夾襖步出監(jiān)牢的瞬間盗扒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評(píng)論 1 267
  • 我被黑心中介騙來泰國(guó)打工缀去, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人甸祭。 一個(gè)月前我還...
    沈念sama閱讀 46,628評(píng)論 2 362
  • 正文 我出身青樓缕碎,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親池户。 傳聞我的和親對(duì)象是個(gè)殘疾皇子咏雌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容