(一)先拋出“空間異質(zhì)性”這個(gè)問(wèn)題
當(dāng)數(shù)據(jù)缺失時(shí),可通過(guò)回歸方程進(jìn)行補(bǔ)全墓陈。
全局回歸會(huì)出現(xiàn)各種問(wèn)題宪塔,相比之下,局部回歸效果更佳狐援。
例如:
在我們印象中大概率會(huì)認(rèn)為:人口多少與財(cái)政收入往往是正相關(guān)钢坦。
拿山東省·分市區(qū)的數(shù)據(jù)(來(lái)源:山東省統(tǒng)計(jì)信息網(wǎng))來(lái)做個(gè)全局回歸看看
0.04:自變量只能解釋4%的因變量的變化爹凹,基本叫沒(méi)有什么關(guān)系。镶殷。禾酱。
但如果抽取一個(gè)市的數(shù)據(jù)算一下,發(fā)現(xiàn):
結(jié)論:
當(dāng)一個(gè)數(shù)據(jù)宇植,在A區(qū)域有很強(qiáng)的解釋能力(威海:人口數(shù)量→財(cái)政變化得封,可解釋性超過(guò)96%)
但在B區(qū)域的解釋卻非常不顯著(同居魯東的青島)
以上這種,不同區(qū)域具有不同性質(zhì)的情況指郁,就是空間分析里無(wú)所不在的 空間異質(zhì)性 忙上。
(二)為什么提出GWR
從概念來(lái)說(shuō),進(jìn)行 global model 分析前闲坎,其實(shí)已經(jīng)假定了“同質(zhì)性”(homo·gene·ity)疫粥,從而掩蓋了變量間關(guān)系的局部特征。
也就是說(shuō)腰懂,全局模型得到的結(jié)果梗逮,即研究區(qū)域內(nèi)的某種“平均”。
例如:北京人均年薪17.7萬(wàn)
這種 “地理位置變化 → 變量間關(guān)系/結(jié)構(gòu)的變化” 稱為 空間·非平穩(wěn)性(spatial non·station·arity)
Attention: 空間非平穩(wěn)性?≠ 空間異質(zhì)性 (前者是后者的一種表現(xiàn)形式)
引起空間非平穩(wěn)性的三個(gè)原因:
①隨機(jī)抽樣的誤差? ②自然绣溜、人文環(huán)境等差異? ③分析模型與實(shí)際不符
傳統(tǒng)的應(yīng)對(duì)方法:
①局部回歸分析:將研究區(qū)域劃分為若干個(gè)同質(zhì)性的區(qū)域分別進(jìn)行回歸
(問(wèn)題:樣本數(shù)量不一致慷彤,導(dǎo)致擬合所得的估計(jì)參數(shù)不同;行政區(qū)劃本身存在各種特殊情況怖喻,導(dǎo)致估計(jì)與實(shí)際不符底哗,因?yàn)樵诂F(xiàn)實(shí)中交界處的變化是緩慢而連續(xù)的,而邊界劃分會(huì)產(chǎn)生突然的“跳變”)
改進(jìn)——移動(dòng)窗口回歸:在每個(gè)樣本周邊定義一個(gè)回歸區(qū)域锚沸,以其中的樣本數(shù)據(jù)建立回歸方程進(jìn)行參數(shù)估計(jì)(窗口大小和性質(zhì)決定區(qū)域)
對(duì)比:
②變參數(shù)回歸模型(GWR的前身)
一種趨勢(shì)擬合法跋选,當(dāng)模型參數(shù)變化復(fù)雜時(shí),此模型就歇菜了哗蜈。
于是1996?地理加權(quán)回歸模型(GWR) 被提出
(三)具體計(jì)算公式
GWR繼續(xù)應(yīng)用了?變參回歸?和 局部回歸 的思想前标,在回歸時(shí)使用了空間關(guān)系作為權(quán)重加入到運(yùn)算中。
全局回歸 vs 局部回歸 :
地理加權(quán)回歸:
首先:劃定研究區(qū)域距潘,通常這個(gè)區(qū)域也可以包含整個(gè)研究數(shù)據(jù)的全體區(qū)域(以此擴(kuò)展炼列,可以利用空間關(guān)系(比如k-臨近),進(jìn)行局部地理加權(quán)計(jì)算)……
接下來(lái):利用每個(gè)要素的不同空間位置绽昼,去計(jì)算衰減函數(shù)唯鸭。
于是就可以把每個(gè)要素的空間位置(一般是坐標(biāo)信息(x,y)) 和 要素的值 帶入到這個(gè)函數(shù)里,得到一個(gè)權(quán)重值硅确,這個(gè)值就可以帶入到回歸方程里了目溉。
這個(gè)衰減函數(shù)的理論基礎(chǔ):地理學(xué)第一定律(Tobler's First Law)
利用公式對(duì)所有的樣本點(diǎn)進(jìn)行逐點(diǎn)的計(jì)算。
其他樣本點(diǎn) 根據(jù) 與計(jì)算樣本點(diǎn)不同的空間關(guān)系 賦予?不同的權(quán)值菱农,得出每個(gè)不同樣本的相關(guān)回歸系數(shù)了缭付。最后通過(guò)解讀這些個(gè)系數(shù),完成整個(gè)地理加權(quán)回歸分析整個(gè)分析過(guò)程循未。
【計(jì)算公式】
空間權(quán)重矩陣:
常見(jiàn)的空間權(quán)重函數(shù):
①高斯函數(shù)(Gauss)
②雙重平方函數(shù)(Bi-Square)
THEN 如何確定帶寬秫舌?→(五)
①交叉確認(rèn)·CV(Cross Validation)
②赤池信息量準(zhǔn)則·AIC(Akaike information criterion)
(四)兩類應(yīng)用最多的空間權(quán)重計(jì)算函數(shù)
空間權(quán)重矩陣 就是用?空間關(guān)系?概念化計(jì)算來(lái)的
距離閾值:在指定范圍內(nèi)權(quán)重為1,剩下就是反距離(距離反比:距離越遠(yuǎn)绣檬,權(quán)重越凶阍伞)
存在問(wèn)題:當(dāng)d_ij=0(回歸點(diǎn)和樣本點(diǎn)重合)時(shí)娇未,權(quán)值無(wú)窮大墨缘。若剔除又會(huì)使精度降低。
因此零抬,我們選擇一個(gè)連續(xù)單調(diào)的?遞減函數(shù)?來(lái)表示 權(quán)重w和距離d之間關(guān)系镊讼,以此來(lái)克服反距離的缺點(diǎn)。(下面列出兩種應(yīng)用最為廣泛的方法)
①Gauss函數(shù)法
但與直接的反距離公式不同:當(dāng)帶寬為0的時(shí)候蝶棋,只有回歸點(diǎn)上的權(quán)值為1,其他各觀測(cè)點(diǎn)的權(quán)重都無(wú)限趨近0忽妒。當(dāng)帶寬無(wú)窮大的時(shí)候玩裙,所有的觀察點(diǎn)權(quán)重都無(wú)限接近1,那么就變成了全局回歸段直。
只要帶寬給定了献酗,距離d為0的時(shí)候 ,權(quán)重達(dá)到最大(w =1)。而隨著距離的增加坷牛,權(quán)重w逐漸減少饮六,當(dāng)離得足夠源的時(shí)候焰轻,權(quán)重w就無(wú)限接近于0了。所以這些足夠遠(yuǎn)的點(diǎn)掖肋,可以看成對(duì)回歸點(diǎn)的參數(shù)估計(jì)幾乎沒(méi)有影響甩苛。
但是蹂楣,如果數(shù)據(jù)非常離散,就會(huì)產(chǎn)生“長(zhǎng)尾效應(yīng)”(大量的數(shù)據(jù)躲得很遠(yuǎn))讯蒲,帶來(lái)大量的計(jì)算開(kāi)銷痊土。所以,在實(shí)際運(yùn)算中墨林,應(yīng)用的是近高斯函數(shù)來(lái)替代高斯計(jì)算赁酝,把那些影響很小的點(diǎn)給截掉,以提高效率旭等。
②Bi-Square函數(shù)
回歸點(diǎn)在帶寬的范圍內(nèi)酌呆,通過(guò) “高斯連續(xù)單調(diào)遞減函數(shù)” 計(jì)算數(shù)據(jù)點(diǎn)的權(quán)重,超出的部分搔耕,權(quán)重全部記為0隙袁。
(五)兩種確定帶寬的方法
①“交叉驗(yàn)證法”(Cross Validation)
將不同帶寬對(duì)應(yīng)的CV繪制成趨勢(shì)線:
通俗地說(shuō):把數(shù)據(jù)分成N組菩收,用其中一部分用來(lái)計(jì)算梨睁,另外一部分?jǐn)?shù)據(jù)就用來(lái)驗(yàn)證;之后用另一部分進(jìn)行計(jì)算娜饵,使用前一部分進(jìn)行驗(yàn)證坡贺。
應(yīng)用舉例:驗(yàn)證哪種戰(zhàn)術(shù)效果最好。
具體方法:把所有隊(duì)員分成若干組划咐,然后用不同的戰(zhàn)術(shù)相互進(jìn)行PK拴念。不斷重新隨機(jī)分組再來(lái)一次,最后統(tǒng)計(jì)不同戰(zhàn)術(shù)的勝率褐缠。
②“最小信息準(zhǔn)則”(Akaike information criterion)
首先假設(shè):誤差的出現(xiàn)服從獨(dú)立正態(tài)分布政鼠。所以采用極大似然函數(shù)就有意義了。
(極大似然函數(shù):簡(jiǎn)單的說(shuō)队魏,假設(shè)有N種結(jié)果公般,如果我們僅作一次實(shí)驗(yàn),出現(xiàn)哪個(gè)結(jié)果胡桨,就認(rèn)為哪個(gè)結(jié)果概率最大官帘。)
當(dāng)我們有一堆可供選擇的模型參數(shù)的時(shí),選AIC最小的昧谊。
(AIC的大小取決于 “獨(dú)立參數(shù)的個(gè)數(shù)” 和 “模型的極大似然函數(shù)兩個(gè)值”刽虹。參數(shù)值少(模型簡(jiǎn)潔),AIC小呢诬;極大似然函數(shù)大(模型精確)涌哲,AIC小。)
當(dāng)兩個(gè)模型之間存在較大差異的時(shí)候尚镰,這個(gè)差異肯定首先出現(xiàn)在模型的極大似然函數(shù)上阀圾;而這個(gè)函數(shù)沒(méi)有出現(xiàn)顯著的差異的時(shí)候,模型的獨(dú)立參數(shù)個(gè)數(shù)才起作用了狗唉,從而初烘,參數(shù)個(gè)數(shù)越少的模型,表現(xiàn)得越好分俯。也就是這個(gè)原因肾筐,這個(gè)準(zhǔn)則才被稱為:最小信息準(zhǔn)則。(鼓勵(lì)數(shù)據(jù)擬合的優(yōu)良性缸剪,通過(guò)控制自由參數(shù)的多少避免出現(xiàn)過(guò)度擬合局齿。)