線性回歸分析應(yīng)該是我們最常用的分析模型了捌肴,根據(jù)身高和體重預(yù)測(cè)年齡
1.回歸分析的基本概念
§回歸分析假定自變量對(duì)因變量的影響強(qiáng)度是始終保持不變的蹬叭,如公式所示:
對(duì)于因變量的預(yù)測(cè)值可以被分解成兩部分:
常量(constant):x取值為零時(shí)y的平均估計(jì)量,可以被看成是一個(gè)基線水平
回歸部分:它刻畫因變量Y的取值中哭靖,由因變量Y與自變量X的線性關(guān)系所決定的部分具垫,即可以由X直接估計(jì)的部分
其中的參數(shù)和含義如下:
?:y的估計(jì)值(所估計(jì)的平均水平),表示給定自變量的取值時(shí)试幽,根據(jù)公式算得的y的估計(jì)值筝蚕;
a:常數(shù)項(xiàng),表示自變量取值均為0時(shí)因變量的平均水平铺坞,即回歸直線在y軸上的截距
? ? ? ?(多數(shù)情況下沒有實(shí)際意義起宽,研究者也不關(guān)心)
b:回歸系數(shù),在多變量回歸中也稱偏回歸系數(shù)济榨。自變量x 改變一個(gè)單位坯沪,y估計(jì)值的改變量。即回歸直線 ? ? ? 的斜率
2.其他的一些參數(shù)和概念
殘差:估計(jì)值和每一個(gè)實(shí)測(cè)值之間的差被稱為殘差擒滑。它刻畫了因變量y除了自變量x以外的其它所有未進(jìn)入 ? ? ? ? ? ? ? 該模型腐晾,或未知但可能與y有關(guān)的隨機(jī)和非隨機(jī)因素共同引起的變異,即不能由x直接估計(jì)的部分
模型適用條件:§線性趨勢(shì) ?§獨(dú)立性 ?§正態(tài)性 ?§方差齊性
? ? ? ? ? ? ? ? ? ? ? ? 如果只是探討自變量與因變量間的關(guān)系丐一,則后兩個(gè)條件可以適當(dāng)放寬
樣本量 :根據(jù)經(jīng)驗(yàn)藻糖,記錄數(shù)應(yīng)當(dāng)在希望分析的自變量數(shù)的20倍以上為宜
偏回歸系數(shù):
? ? ? 相應(yīng)的自變量上升一個(gè)單位時(shí),因變量取值的變動(dòng)情況库车,即自變量對(duì)因變量的影響程度
標(biāo)化偏回歸系數(shù):量綱問題巨柒,忽略量綱之后的回歸系數(shù)
決定系數(shù):
? ? ? ? 相應(yīng)的相關(guān)系數(shù)的平方,用R2表示柠衍,它反映因變量y的全部變異中能夠通過回歸關(guān)系被自變量解釋的比例
3.分析步驟
3..1自變量與因變量的相關(guān)趨勢(shì)(散點(diǎn)圖)進(jìn)行描述性分析洋满,找出強(qiáng)影響點(diǎn)
3.2對(duì)數(shù)據(jù)的分布,分析變量的正態(tài)性珍坊,和方差齊次性的問題
3.3進(jìn)行線性回歸建模
3.4考慮殘差之間是否獨(dú)立和殘差的分布是否符合正態(tài)分布
P-P圖牺勾,殘差分布圖
4.具體實(shí)現(xiàn)
4.1一般求解
-----------python的實(shí)現(xiàn) (1)一般求解
--------python的實(shí)現(xiàn) (1)一般求解-代碼
#線性回歸誤差平方和最小
from? numpy import? *
import? xlrd
import? xlwt
import? matplotlib.pyplot as plt
#導(dǎo)入數(shù)據(jù)
def loadDataSet(x=r"C:\Users\mei-huang\Desktop\data2.xlsx",y=u'回歸數(shù)據(jù)'):
? ? data=xlrd.open_workbook(x) #excel的位置
? ? try:
? ? ? ? table = data.sheet_by_name(y)? # 通過名稱獲取? #excel的工作表名 列名放置在第一行
? ? except:
? ? ? ? print("no sheet? in %s named? sheet1"%data)
? ? print(table.nrows,table.ncols)
? ? x_data=[];y_data=[];labels=[]
? ? for? n? in? range(1,table.nrows): #,
? ? ? ? col = []
? ? ? ? for? c in range(table.ncols): #
? ? ? ? ? ? # print(table.cell(n,c).value,type(table.cell(n,c).value))
? ? ? ? ? ? x=table.cell(n,c).value
? ? ? ? ? ? col.append(float(x))
? ? ? ? x_data.append(col[0:-1])
? ? ? ? y_data.append(col[-1])
? ? for n in range(1):
? ? ? ? for c in range(table.ncols):
? ? ? ? ? ? labels.append(table.cell(n,c).value)
? ? return? x_data,y_data,labels
#k值求解
def standRegres(xArr,yArr):
? ? xMat = mat(xArr); yMat = mat(yArr).T #對(duì)變量進(jìn)行轉(zhuǎn)置
? ? xTx = xMat.T*xMat #進(jìn)行矩陣運(yùn)算
? ? if linalg.det(xTx) == 0.0:
? ? ? ? print ("This matrix is singular, cannot do inverse")
? ? ? ? return
? ? ws = xTx.I * (xMat.T*yMat)
? ? return ws
#? 返回誤差平方和
def rssError(yArr,yHatArr):
? ? yArr=array(yArr);yHatArr=array(yHatArr)
? ? # print(yArr[0,1:10],yHatArr[0,1:10])
? ? return ((yArr-yHatArr)**2).sum()
#加載數(shù)據(jù)
xx,yy,labels= loadDataSet()
xMat=mat(xx[0:1000])
yMat=mat(yy[0:1000])
# 對(duì)變量進(jìn)行描述性統(tǒng)計(jì)分析 繪制三點(diǎn)圖和直方圖
fig1 = plt.figure()
fig2=plt.figure()
fig3=plt.figure()
ax3 = fig3.add_subplot(111)
ax3.hist(yMat.flatten().A[0],bins=6,stacked=True)
ax3.set_title("%s-hist" %(labels[-1]))
for? n in range(xMat.shape[1]):
? ? ax = fig1.add_subplot(2,2,n+1)
? ? ax.scatter(xMat[:,n].flatten().A[0],yMat.flatten().A[0])
? ? ax.set_title("%s-%splot"%(labels[n],labels[-1]))
? ? ax2 = fig2.add_subplot(2, 2, n+1)
? ? ax2.hist(xMat[:,n])
? ? ax2.set_title("%s-hist" %(labels[n]))
plt.show() #顯示變量的分布圖和與x的關(guān)系圖
# #參數(shù)求解方式1-常規(guī)求解
# #一般線性回歸
# #計(jì)算回歸系數(shù)和預(yù)測(cè)值
k=standRegres(xMat,yMat)
print(k.T,k.shape)
y1=xMat*k
#計(jì)算真實(shí)值和預(yù)測(cè)值的相關(guān)系數(shù)
r=corrcoef(y1.T,yMat) #0.44 比較差的相關(guān)系數(shù)
print(r)
#? 返回誤差平方和
print(rssError(y1.T,yMat))
fig = plt.figure()
ax = fig.add_subplot(111)
# ax.scatter(yMat.flatten().A[0], y1.flatten().A[0])
# yMat=yMat[:,0].argsort(0) #將數(shù)組的數(shù)值從小到大排序,并按照對(duì)應(yīng)的索引值輸出
# print(yMat)
# yMat=yMat[yMat][:,0,:]
# y1=y1[yMat][:,0,:]
# yMat.flatten().A[0].sort()
# y1.flatten().A[0].sort()
ax.plot(range(1000),yMat.flatten().A[0],? mec='r', mfc='w')
ax.plot(range(1000),y1.flatten().A[0],? mec='g', mfc='w')
plt.show()
#寫出結(jié)果到文件
book = xlwt.Workbook(encoding='utf-8', style_compression=0)
sheet = book.add_sheet('test', cell_overwrite_ok=True)
n=0
for? x in? range(k.shape[0]) :
? ? sheet.write(n, 1, k[x,0])
? ? n+=1
book.save(r'e:\test3.csv')
4.2加權(quán)系數(shù)回歸 ?
from numpy import *
import? xlrd
import? xlwt
import? matplotlib.pyplot as plt
#導(dǎo)入數(shù)據(jù)
def loadDataSet(x=r"C:\Users\mei-huang\Desktop\data2.xlsx",y=u'回歸數(shù)據(jù)'):
? ? data=xlrd.open_workbook(x) #打開文件位置
? ? try:
? ? ? ? table = data.sheet_by_name(y)? # 打開工作簿名稱
? ? except:
? ? ? ? print("no sheet? in %s named? sheet1"%data)
? ? print(table.nrows,table.ncols)? ? #返回?cái)?shù)據(jù)有多少行阵漏,有多少列
? ? x_data=[];y_data=[];labels=[]? ? #建立三個(gè)列表存放禽最,變量x,變量y腺怯,變量名
? ? for? n? in? range(1,table.nrows): #對(duì)行進(jìn)行循環(huán)
? ? ? ? col = []? ? ? ? ? ? ? ? #存放一行內(nèi)容
? ? ? ? for? c in range(table.ncols): #? #對(duì)列進(jìn)行循環(huán)
? ? ? ? ? ? # print(table.cell(n,c).value,type(table.cell(n,c).value))
? ? ? ? ? ? x=table.cell(n,c).value? #取出數(shù)值
? ? ? ? ? ? col.append(float(x))? ? #添加到col中
? ? ? ? x_data.append(col[0:-1])? ? #添加x變量到x列表
? ? ? ? y_data.append(col[-1])? ? #添加y 到y(tǒng)列表
? ? for n in range(1):? ? ? ? ? ? #添加列名到標(biāo)簽列表
? ? ? ? for c in range(table.ncols):
? ? ? ? ? ? labels.append(table.cell(n,c).value)
? ? return? x_data,y_data,labels
#? 返回誤差平方和
def rssError(yArr,yHatArr):
? ? yArr=array(yArr);yHatArr=array(yHatArr) #把傳入y1,y2的數(shù)據(jù)類型變成數(shù)組
? ? # print(yArr[0,1:10],yHatArr[0,1:10])
? ? return ((yArr-yHatArr)**2).sum()? #返回(y1-y2)的平方和)
# 參數(shù)求解方式2-局部加權(quán)線性回歸(LWLR)
'''正常線性回歸袱饭,把所有的點(diǎn)看的一樣重要川无,權(quán)重回歸對(duì)于偏離較遠(yuǎn)的數(shù)據(jù)點(diǎn)的影響進(jìn)行調(diào)低,降低對(duì)擬合直線的影響
? ? k=1表示正常的線性回歸-所有的點(diǎn)都一樣虑乖,我們可以調(diào)整k得到不同效果懦趋,然后用這個(gè)k值對(duì)新的數(shù)據(jù)進(jìn)行擬合'''
def lwlr(testPoint,xArr,yArr,k=1.0): #(需要預(yù)測(cè)數(shù)據(jù)集合,樣本數(shù)據(jù)的x變量疹味,樣本數(shù)據(jù)的y變量仅叫,衰減系數(shù))
? ? xMat = mat(xArr); yMat = mat(yArr).T
? ? m = shape(xMat)[0]? #樣本數(shù)據(jù)的行數(shù)
? ? weights = mat(eye((m)))? ? ? #創(chuàng)建對(duì)角矩陣(對(duì)角線上是1,其余都是0)
? ? for j in range(m):? #對(duì)測(cè)試數(shù)據(jù)集合的每一行數(shù)據(jù)進(jìn)行去那種調(diào)整
? ? ? ? # 權(quán)重值大小以指數(shù)級(jí)衰減
? ? ? ? diffMat = testPoint - xMat[j,:] #
? ? ? ? weights[j,j] = exp(diffMat*diffMat.T/(-2.0*k**2)) #距離越遠(yuǎn)權(quán)重越小
? ? xTx = xMat.T * (weights * xMat)? #返回調(diào)整權(quán)重后的數(shù)值x
? ? if linalg.det(xTx) == 0.0:
? ? ? ? print ("This matrix is singular, cannot do inverse")
? ? ? ? return
? ? ws = xTx.I * (xMat.T * (weights * yMat)) #得到回歸系數(shù)
? ? # print(ws)
? ? return testPoint * ws
def lwlrTest(testArr,xArr,yArr,k=1.0): #k=1對(duì)所有的點(diǎn)賦予相同的權(quán)重糙捺,等價(jià)于最小二乘法
? ? m = shape(testArr)[0]? #需要預(yù)測(cè)的數(shù)據(jù)的行數(shù)
? ? yHat = zeros(m)? #建立空數(shù)組
? ? for i in range(m): #將預(yù)測(cè)的數(shù)據(jù)返回
? ? ? ? yHat[i]= lwlr(testArr[i],xArr,yArr,k)
? ? return yHat #返回預(yù)測(cè)結(jié)果
#讀入數(shù)據(jù) 1 已經(jīng)知道結(jié)果的數(shù)據(jù)集合
xx,yy,labels= loadDataSet()
xMat=mat(xx[0:100])
yMat=mat(yy[0:100])
#讀入數(shù)據(jù)2 需要預(yù)測(cè)的數(shù)據(jù)集合
xx1,xx2,labels1= loadDataSet(x=r"C:\Users\mei-huang\Desktop\data2.xlsx",y=u'預(yù)測(cè)數(shù)據(jù)') #在excel新建工作簿诫咱,只放入x的數(shù)據(jù)
xMat2=hstack((mat(xx1),mat(xx2).T)) #把數(shù)據(jù)按照列合并
#測(cè)試不同的k值查看對(duì)已經(jīng)知道結(jié)果的數(shù)據(jù)進(jìn)行擬合 ,返回?cái)M合的曲線和擬合的誤差
y2=lwlrTest(xMat,xMat,yMat,0.9)? #調(diào)整k等于0.9
r=corrcoef(y2.T,yMat)[0,1] #返回相關(guān)系數(shù)
dis=rssError(y2.T,yMat)# 返回誤差
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(range(len(yMat.flatten().A[0])),yMat.flatten().A[0],? mec='r', mfc='w')
ax.plot(range(len(mat(y2).flatten().A[0])),mat(y2).flatten().A[0],? mec='g', mfc='w')
plt.annotate(u"r:%s\ndis:%s"%(r,dis),xy=(75,23.75),xytext=(80,23.7),
? ? ? ? ? ? # arrowprops=dict(facecolor="r", headlength=1, headwidth=3, width=2)
? ? ? ? ? ? )
plt.show()
#對(duì)新的的數(shù)據(jù)進(jìn)行擬合
y3=lwlrTest(xMat2,xMat,yMat,0.9)? #經(jīng)過測(cè)試k=0.9的效果最理想洪灯,新數(shù)據(jù)xMat2坎缭,用k=0.9做擬合
# print(y3)
#將對(duì)新數(shù)據(jù)的預(yù)測(cè)結(jié)果寫入到指定文件
book = xlwt.Workbook(encoding='utf-8', style_compression=0)
sheet = book.add_sheet('test', cell_overwrite_ok=True)
n=0
for? x in? range(len(y3)) :
? ? sheet.write(n, 1, y3[x])
? ? n+=1
book.save(r'e:\test4.csv')