線性回歸分析

線性回歸分析應(yīng)該是我們最常用的分析模型了捌肴，根據(jù)身高和體重預(yù)測(cè)年齡

1.回歸分析的基本概念

§回歸分析假定自變量對(duì)因變量的影響強(qiáng)度是始終保持不變的蹬叭，如公式所示：

公式（1）

對(duì)于因變量的預(yù)測(cè)值可以被分解成兩部分：

常量（constant）：x取值為零時(shí)y的平均估計(jì)量，可以被看成是一個(gè)基線水平

回歸部分：它刻畫因變量Y的取值中哭靖，由因變量Y與自變量X的線性關(guān)系所決定的部分具垫，即可以由X直接估計(jì)的部分

其中的參數(shù)和含義如下：

?：y的估計(jì)值（所估計(jì)的平均水平），表示給定自變量的取值時(shí)试幽，根據(jù)公式算得的y的估計(jì)值筝蚕；

a：常數(shù)項(xiàng)，表示自變量取值均為0時(shí)因變量的平均水平铺坞，即回歸直線在y軸上的截距

? ? ? ?(多數(shù)情況下沒有實(shí)際意義起宽，研究者也不關(guān)心)

b：回歸系數(shù)，在多變量回歸中也稱偏回歸系數(shù)济榨。自變量x 改變一個(gè)單位坯沪，y估計(jì)值的改變量。即回歸直線 ? ? ? 的斜率

2.其他的一些參數(shù)和概念

殘差：估計(jì)值和每一個(gè)實(shí)測(cè)值之間的差被稱為殘差擒滑。它刻畫了因變量y除了自變量x以外的其它所有未進(jìn)入 ? ? ? ? ? ? ? 該模型腐晾，或未知但可能與y有關(guān)的隨機(jī)和非隨機(jī)因素共同引起的變異，即不能由x直接估計(jì)的部分

模型適用條件:§線性趨勢(shì) ?§獨(dú)立性 ?§正態(tài)性 ?§方差齊性

? ? ? ? ? ? ? ? ? ? ? ? 如果只是探討自變量與因變量間的關(guān)系丐一，則后兩個(gè)條件可以適當(dāng)放寬

樣本量 ：根據(jù)經(jīng)驗(yàn)藻糖，記錄數(shù)應(yīng)當(dāng)在希望分析的自變量數(shù)的20倍以上為宜

偏回歸系數(shù)：

? ? ? 相應(yīng)的自變量上升一個(gè)單位時(shí)，因變量取值的變動(dòng)情況库车，即自變量對(duì)因變量的影響程度

標(biāo)化偏回歸系數(shù)：量綱問題巨柒，忽略量綱之后的回歸系數(shù)

決定系數(shù)：

? ? ? ? 相應(yīng)的相關(guān)系數(shù)的平方，用R2表示柠衍，它反映因變量y的全部變異中能夠通過回歸關(guān)系被自變量解釋的比例

3.分析步驟

3..1自變量與因變量的相關(guān)趨勢(shì)（散點(diǎn)圖）進(jìn)行描述性分析洋满，找出強(qiáng)影響點(diǎn)

3.2對(duì)數(shù)據(jù)的分布，分析變量的正態(tài)性珍坊，和方差齊次性的問題

3.3進(jìn)行線性回歸建模

3.4考慮殘差之間是否獨(dú)立和殘差的分布是否符合正態(tài)分布

P-P圖牺勾，殘差分布圖

4.具體實(shí)現(xiàn)

4.1一般求解

-----------python的實(shí)現(xiàn) （1）一般求解

4.1（-）

4.1（2）

--------python的實(shí)現(xiàn) （1）一般求解-代碼

#線性回歸誤差平方和最小

from? numpy import? *

import? xlrd

import? xlwt

import? matplotlib.pyplot as plt

#導(dǎo)入數(shù)據(jù)

def loadDataSet(x=r"C:\Users\mei-huang\Desktop\data2.xlsx",y=u'回歸數(shù)據(jù)'):

? ? data=xlrd.open_workbook(x) #excel的位置

? ? try:

? ? ? ? table = data.sheet_by_name(y)? # 通過名稱獲取? #excel的工作表名列名放置在第一行

? ? except:

? ? ? ? print("no sheet? in %s named? sheet1"%data)

? ? print(table.nrows,table.ncols)

? ? x_data=[];y_data=[];labels=[]

? ? for? n? in? range(1,table.nrows): #,

? ? ? ? col = []

? ? ? ? for? c in range(table.ncols): #

? ? ? ? ? ? # print(table.cell(n,c).value,type(table.cell(n,c).value))

? ? ? ? ? ? x=table.cell(n,c).value

? ? ? ? ? ? col.append(float(x))

? ? ? ? x_data.append(col[0:-1])

? ? ? ? y_data.append(col[-1])

? ? for n in range(1):

? ? ? ? for c in range(table.ncols):

? ? ? ? ? ? labels.append(table.cell(n,c).value)

? ? return? x_data,y_data,labels

#k值求解

def standRegres(xArr,yArr):

? ? xMat = mat(xArr); yMat = mat(yArr).T #對(duì)變量進(jìn)行轉(zhuǎn)置

? ? xTx = xMat.T*xMat #進(jìn)行矩陣運(yùn)算

? ? if linalg.det(xTx) == 0.0:

? ? ? ? print ("This matrix is singular, cannot do inverse")

? ? ? ? return

? ? ws = xTx.I * (xMat.T*yMat)

? ? return ws

#? 返回誤差平方和

def rssError(yArr,yHatArr):

? ? yArr=array(yArr);yHatArr=array(yHatArr)

? ? # print(yArr[0,1:10],yHatArr[0,1:10])

? ? return ((yArr-yHatArr)**2).sum()

#加載數(shù)據(jù)

xx,yy,labels= loadDataSet()

xMat=mat(xx[0:1000])

yMat=mat(yy[0:1000])

# 對(duì)變量進(jìn)行描述性統(tǒng)計(jì)分析繪制三點(diǎn)圖和直方圖

fig1 = plt.figure()

fig2=plt.figure()

fig3=plt.figure()

ax3 = fig3.add_subplot(111)

ax3.hist(yMat.flatten().A[0],bins=6,stacked=True)

ax3.set_title("%s-hist" %(labels[-1]))

for? n in range(xMat.shape[1]):

? ? ax = fig1.add_subplot(2,2,n+1)

? ? ax.scatter(xMat[:,n].flatten().A[0],yMat.flatten().A[0])

? ? ax.set_title("%s-%splot"%(labels[n],labels[-1]))

? ? ax2 = fig2.add_subplot(2, 2, n+1)

? ? ax2.hist(xMat[:,n])

? ? ax2.set_title("%s-hist" %(labels[n]))

plt.show() #顯示變量的分布圖和與x的關(guān)系圖

# #參數(shù)求解方式1-常規(guī)求解

# #一般線性回歸

# #計(jì)算回歸系數(shù)和預(yù)測(cè)值

k=standRegres(xMat,yMat)

print(k.T,k.shape)

y1=xMat*k

#計(jì)算真實(shí)值和預(yù)測(cè)值的相關(guān)系數(shù)

r=corrcoef(y1.T,yMat) #0.44 比較差的相關(guān)系數(shù)

print(r)

#? 返回誤差平方和

print(rssError(y1.T,yMat))

fig = plt.figure()

ax = fig.add_subplot(111)

# ax.scatter(yMat.flatten().A[0], y1.flatten().A[0])

# yMat=yMat[:,0].argsort(0) #將數(shù)組的數(shù)值從小到大排序，并按照對(duì)應(yīng)的索引值輸出

# print(yMat)

# yMat=yMat[yMat][:,0,:]

# y1=y1[yMat][:,0,:]

# yMat.flatten().A[0].sort()

# y1.flatten().A[0].sort()

ax.plot(range(1000),yMat.flatten().A[0],? mec='r', mfc='w')

ax.plot(range(1000),y1.flatten().A[0],? mec='g', mfc='w')

plt.show()

#寫出結(jié)果到文件

book = xlwt.Workbook(encoding='utf-8', style_compression=0)

sheet = book.add_sheet('test', cell_overwrite_ok=True)

n=0

for? x in? range(k.shape[0]) :

? ? sheet.write(n, 1, k[x,0])

? ? n+=1

book.save(r'e:\test3.csv')

4.2加權(quán)系數(shù)回歸 ?

4.2（1）

4.2（2）

from numpy import *

import? xlrd

import? xlwt

import? matplotlib.pyplot as plt

#導(dǎo)入數(shù)據(jù)

def loadDataSet(x=r"C:\Users\mei-huang\Desktop\data2.xlsx",y=u'回歸數(shù)據(jù)'):

? ? data=xlrd.open_workbook(x) #打開文件位置

? ? try:

? ? ? ? table = data.sheet_by_name(y)? # 打開工作簿名稱

? ? except:

? ? ? ? print("no sheet? in %s named? sheet1"%data)

? ? print(table.nrows,table.ncols)? ? #返回?cái)?shù)據(jù)有多少行阵漏，有多少列

? ? x_data=[];y_data=[];labels=[]? ? #建立三個(gè)列表存放禽最，變量x,變量y腺怯，變量名

? ? for? n? in? range(1,table.nrows): #對(duì)行進(jìn)行循環(huán)

? ? ? ? col = []? ? ? ? ? ? ? ? #存放一行內(nèi)容

? ? ? ? for? c in range(table.ncols): #? #對(duì)列進(jìn)行循環(huán)

? ? ? ? ? ? # print(table.cell(n,c).value,type(table.cell(n,c).value))

? ? ? ? ? ? x=table.cell(n,c).value? #取出數(shù)值

? ? ? ? ? ? col.append(float(x))? ? #添加到col中

? ? ? ? x_data.append(col[0:-1])? ? #添加x變量到x列表

? ? ? ? y_data.append(col[-1])? ? #添加y 到y(tǒng)列表

? ? for n in range(1):? ? ? ? ? ? #添加列名到標(biāo)簽列表

? ? ? ? for c in range(table.ncols):

? ? ? ? ? ? labels.append(table.cell(n,c).value)

? ? return? x_data,y_data,labels

#? 返回誤差平方和

def rssError(yArr,yHatArr):

? ? yArr=array(yArr);yHatArr=array(yHatArr) #把傳入y1,y2的數(shù)據(jù)類型變成數(shù)組

? ? # print(yArr[0,1:10],yHatArr[0,1:10])

? ? return ((yArr-yHatArr)**2).sum()? #返回（y1-y2）的平方和）

# 參數(shù)求解方式2-局部加權(quán)線性回歸（LWLR）

'''正常線性回歸袱饭，把所有的點(diǎn)看的一樣重要川无，權(quán)重回歸對(duì)于偏離較遠(yuǎn)的數(shù)據(jù)點(diǎn)的影響進(jìn)行調(diào)低，降低對(duì)擬合直線的影響

? ? k=1表示正常的線性回歸-所有的點(diǎn)都一樣虑乖，我們可以調(diào)整k得到不同效果懦趋，然后用這個(gè)k值對(duì)新的數(shù)據(jù)進(jìn)行擬合'''

def lwlr(testPoint,xArr,yArr,k=1.0): #（需要預(yù)測(cè)數(shù)據(jù)集合，樣本數(shù)據(jù)的x變量疹味，樣本數(shù)據(jù)的y變量仅叫，衰減系數(shù)）

? ? xMat = mat(xArr); yMat = mat(yArr).T

? ? m = shape(xMat)[0]? #樣本數(shù)據(jù)的行數(shù)

? ? weights = mat(eye((m)))? ? ? #創(chuàng)建對(duì)角矩陣（對(duì)角線上是1，其余都是0）

? ? for j in range(m):? #對(duì)測(cè)試數(shù)據(jù)集合的每一行數(shù)據(jù)進(jìn)行去那種調(diào)整

? ? ? ? # 權(quán)重值大小以指數(shù)級(jí)衰減

? ? ? ? diffMat = testPoint - xMat[j,:] #

? ? ? ? weights[j,j] = exp(diffMat*diffMat.T/(-2.0*k**2)) #距離越遠(yuǎn)權(quán)重越小

? ? xTx = xMat.T * (weights * xMat)? #返回調(diào)整權(quán)重后的數(shù)值x

? ? if linalg.det(xTx) == 0.0:

? ? ? ? print ("This matrix is singular, cannot do inverse")

? ? ? ? return

? ? ws = xTx.I * (xMat.T * (weights * yMat)) #得到回歸系數(shù)

? ? # print(ws)

? ? return testPoint * ws

def lwlrTest(testArr,xArr,yArr,k=1.0): #k=1對(duì)所有的點(diǎn)賦予相同的權(quán)重糙捺，等價(jià)于最小二乘法

? ? m = shape(testArr)[0]? #需要預(yù)測(cè)的數(shù)據(jù)的行數(shù)

? ? yHat = zeros(m)? #建立空數(shù)組

? ? for i in range(m): #將預(yù)測(cè)的數(shù)據(jù)返回

? ? ? ? yHat[i]= lwlr(testArr[i],xArr,yArr,k)

? ? return yHat #返回預(yù)測(cè)結(jié)果

#讀入數(shù)據(jù) 1 已經(jīng)知道結(jié)果的數(shù)據(jù)集合

xx,yy,labels= loadDataSet()

xMat=mat(xx[0:100])

yMat=mat(yy[0:100])

#讀入數(shù)據(jù)2 需要預(yù)測(cè)的數(shù)據(jù)集合

xx1,xx2,labels1= loadDataSet(x=r"C:\Users\mei-huang\Desktop\data2.xlsx",y=u'預(yù)測(cè)數(shù)據(jù)') #在excel新建工作簿诫咱，只放入x的數(shù)據(jù)

xMat2=hstack((mat(xx1),mat(xx2).T)) #把數(shù)據(jù)按照列合并

#測(cè)試不同的k值查看對(duì)已經(jīng)知道結(jié)果的數(shù)據(jù)進(jìn)行擬合，返回?cái)M合的曲線和擬合的誤差

y2=lwlrTest(xMat,xMat,yMat,0.9)? #調(diào)整k等于0.9

r=corrcoef(y2.T,yMat)[0,1] #返回相關(guān)系數(shù)

dis=rssError(y2.T,yMat)# 返回誤差

fig = plt.figure()

ax = fig.add_subplot(111)

ax.plot(range(len(yMat.flatten().A[0])),yMat.flatten().A[0],? mec='r', mfc='w')

ax.plot(range(len(mat(y2).flatten().A[0])),mat(y2).flatten().A[0],? mec='g', mfc='w')

plt.annotate(u"r:%s\ndis:%s"%(r,dis),xy=(75,23.75),xytext=(80,23.7),

? ? ? ? ? ? # arrowprops=dict(facecolor="r", headlength=1, headwidth=3, width=2)

? ? ? ? ? ? )

plt.show()

#對(duì)新的的數(shù)據(jù)進(jìn)行擬合

y3=lwlrTest(xMat2,xMat,yMat,0.9)? #經(jīng)過測(cè)試k=0.9的效果最理想洪灯，新數(shù)據(jù)xMat2坎缭，用k=0.9做擬合

# print(y3)

#將對(duì)新數(shù)據(jù)的預(yù)測(cè)結(jié)果寫入到指定文件

book = xlwt.Workbook(encoding='utf-8', style_compression=0)

sheet = book.add_sheet('test', cell_overwrite_ok=True)

n=0

for? x in? range(len(y3)) :

? ? sheet.write(n, 1, y3[x])

? ? n+=1

book.save(r'e:\test4.csv')

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市签钩，隨后出現(xiàn)的幾起案子掏呼，更是在濱河造成了極大的恐慌，老刑警劉巖铅檩，帶你破解...
沈念sama閱讀 212,816評(píng)論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件憎夷，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡昧旨，警方通過查閱死者的電腦和手機(jī)拾给，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,729評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來兔沃，“玉大人蒋得，你說我怎么就攤上這事≌呈埃” “怎么了窄锅？”我有些...
開封第一講書人閱讀 158,300評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)缰雇。經(jīng)常有香客問我入偷，道長(zhǎng)，這世上最難降的妖魔是什么械哟？我笑而不...
開封第一講書人閱讀 56,780評(píng)論 1贊 285
?港島之戀（遺憾婚禮）
正文為了忘掉前任疏之，我火速辦了婚禮，結(jié)果婚禮上暇咆，老公的妹妹穿的比我還像新娘锋爪。我一直安慰自己丙曙，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,890評(píng)論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布其骄。她就那樣靜靜地躺著亏镰，像睡著了一般。火紅的嫁衣襯著肌膚如雪拯爽。梳的紋絲不亂的頭發(fā)上索抓，一...
開封第一講書人閱讀 50,084評(píng)論 1贊 291
城市分裂傳說
那天，我揣著相機(jī)與錄音毯炮，去河邊找鬼逼肯。笑死，一個(gè)胖子當(dāng)著我的面吹牛桃煎，可吹牛的內(nèi)容都是我干的篮幢。我是一名探鬼主播，決...
沈念sama閱讀 39,151評(píng)論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼为迈，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼三椿！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起曲尸，我...
開封第一講書人閱讀 37,912評(píng)論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤赋续，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后另患，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纽乱，經(jīng)...
沈念sama閱讀 44,355評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,666評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年昆箕，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鸦列。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,809評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡鹏倘，死狀恐怖薯嗤，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情纤泵，我是刑警寧澤骆姐，帶...
沈念sama閱讀 34,504評(píng)論 4贊 334
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站捏题，受9級(jí)特大地震影響玻褪，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜公荧，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,150評(píng)論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一带射、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧循狰，春花似錦窟社、人聲如沸券勺。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,882評(píng)論 0贊 21
一樁弒父案灿里，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽关炼。三九已至，卻和暖如春钠四，著一層夾襖步出監(jiān)牢的瞬間盗扒，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,121評(píng)論 1贊 267
情欲美人皮
我被黑心中介騙來泰國(guó)打工缀去，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人甸祭。一個(gè)月前我還...
沈念sama閱讀 46,628評(píng)論 2贊 362
代替公主和親
正文我出身青樓缕碎，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親池户。傳聞我的和親對(duì)象是個(gè)殘疾皇子咏雌，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,724評(píng)論 2贊 351

線性回歸分析

推薦閱讀更多精彩內(nèi)容