地理加權(quán)回歸概念介紹(蝦神專輯摘要)

(一)先拋出“空間異質(zhì)性”這個(gè)問(wèn)題

當(dāng)數(shù)據(jù)缺失時(shí),可通過(guò)回歸方程進(jìn)行補(bǔ)全墓陈。

全局回歸會(huì)出現(xiàn)各種問(wèn)題宪塔,相比之下,局部回歸效果更佳狐援。

例如:

在我們印象中大概率會(huì)認(rèn)為:人口多少與財(cái)政收入往往是正相關(guān)钢坦。

拿山東省·分市區(qū)的數(shù)據(jù)(來(lái)源:山東省統(tǒng)計(jì)信息網(wǎng))來(lái)做個(gè)全局回歸看看


R-squared(判定系數(shù))越接近1,回歸模型效果越好啥酱。

0.04:自變量只能解釋4%的因變量的變化爹凹,基本叫沒(méi)有什么關(guān)系。镶殷。禾酱。

但如果抽取一個(gè)市的數(shù)據(jù)算一下,發(fā)現(xiàn):


威海局部回歸,系數(shù)高達(dá)0.966


青島的可解釋性居然只有1%

結(jié)論

當(dāng)一個(gè)數(shù)據(jù)宇植,在A區(qū)域有很強(qiáng)的解釋能力(威海:人口數(shù)量→財(cái)政變化得封,可解釋性超過(guò)96%)

但在B區(qū)域的解釋卻非常不顯著(同居魯東的青島)

以上這種,不同區(qū)域具有不同性質(zhì)的情況指郁,就是空間分析里無(wú)所不在的 空間異質(zhì)性 忙上。

(二)為什么提出GWR

從概念來(lái)說(shuō),進(jìn)行 global model 分析前闲坎,其實(shí)已經(jīng)假定了“同質(zhì)性”(homo·gene·ity)疫粥,從而掩蓋了變量間關(guān)系的局部特征。

也就是說(shuō)腰懂,全局模型得到的結(jié)果梗逮,即研究區(qū)域內(nèi)的某種“平均”。

例如:北京人均年薪17.7萬(wàn)

這種 “地理位置變化 → 變量間關(guān)系/結(jié)構(gòu)的變化” 稱為 空間·非平穩(wěn)性(spatial non·station·arity)

Attention: 空間非平穩(wěn)性?≠ 空間異質(zhì)性 (前者是后者的一種表現(xiàn)形式

引起空間非平穩(wěn)性的三個(gè)原因

①隨機(jī)抽樣的誤差? ②自然绣溜、人文環(huán)境等差異? ③分析模型與實(shí)際不符

傳統(tǒng)的應(yīng)對(duì)方法

①局部回歸分析:將研究區(qū)域劃分為若干個(gè)同質(zhì)性的區(qū)域分別進(jìn)行回歸

(問(wèn)題:樣本數(shù)量不一致慷彤,導(dǎo)致擬合所得的估計(jì)參數(shù)不同;行政區(qū)劃本身存在各種特殊情況怖喻,導(dǎo)致估計(jì)與實(shí)際不符底哗,因?yàn)樵诂F(xiàn)實(shí)中交界處的變化是緩慢而連續(xù)的,而邊界劃分會(huì)產(chǎn)生突然的“跳變”)

改進(jìn)——移動(dòng)窗口回歸:在每個(gè)樣本周邊定義一個(gè)回歸區(qū)域锚沸,以其中的樣本數(shù)據(jù)建立回歸方程進(jìn)行參數(shù)估計(jì)(窗口大小和性質(zhì)決定區(qū)域)

對(duì)比:

依然無(wú)法避免相鄰回歸點(diǎn)上參數(shù)估計(jì)的跳變問(wèn)題

②變參數(shù)回歸模型(GWR的前身)

一種趨勢(shì)擬合法跋选,當(dāng)模型參數(shù)變化復(fù)雜時(shí),此模型就歇菜了哗蜈。

于是1996?地理加權(quán)回歸模型(GWR) 被提出


(三)具體計(jì)算公式

GWR繼續(xù)應(yīng)用了?變參回歸?局部回歸 的思想前标,在回歸時(shí)使用了空間關(guān)系作為權(quán)重加入到運(yùn)算中。

全局回歸 vs 局部回歸

局部回歸看起來(lái)就像縮小版的全局回歸

地理加權(quán)回歸

最重要的就是 “距離衰減函數(shù)”

首先:劃定研究區(qū)域距潘,通常這個(gè)區(qū)域也可以包含整個(gè)研究數(shù)據(jù)的全體區(qū)域(以此擴(kuò)展炼列,可以利用空間關(guān)系(比如k-臨近),進(jìn)行局部地理加權(quán)計(jì)算)……

接下來(lái):利用每個(gè)要素的不同空間位置绽昼,去計(jì)算衰減函數(shù)唯鸭。

于是就可以把每個(gè)要素的空間位置(一般是坐標(biāo)信息(x,y)) 和 要素的 帶入到這個(gè)函數(shù)里,得到一個(gè)權(quán)重值硅确,這個(gè)值就可以帶入到回歸方程里了目溉。

這個(gè)衰減函數(shù)的理論基礎(chǔ):地理學(xué)第一定律(Tobler's First Law)

利用公式對(duì)所有的樣本點(diǎn)進(jìn)行逐點(diǎn)的計(jì)算。

其他樣本點(diǎn) 根據(jù) 與計(jì)算樣本點(diǎn)不同的空間關(guān)系 賦予?不同的權(quán)值菱农,得出每個(gè)不同樣本的相關(guān)回歸系數(shù)了缭付。最后通過(guò)解讀這些個(gè)系數(shù),完成整個(gè)地理加權(quán)回歸分析整個(gè)分析過(guò)程循未。

【計(jì)算公式】

不同點(diǎn)→不同\beta 值:體現(xiàn)空間異質(zhì)性

空間權(quán)重矩陣

無(wú)向圖


距離矩陣
將以上矩陣帶入方程

常見(jiàn)的空間權(quán)重函數(shù)

①高斯函數(shù)(Gauss

距離可以是:歐式陷猫、曼哈頓... ...?

②雙重平方函數(shù)(Bi-Square

b:帶寬 / 窗口大小

THEN 如何確定帶寬秫舌?→(五)

①交叉確認(rèn)·CV(Cross Validation)

②赤池信息量準(zhǔn)則·AIC(Akaike information criterion)


(四)兩類應(yīng)用最多的空間權(quán)重計(jì)算函數(shù)

空間權(quán)重矩陣 就是用?空間關(guān)系?概念化計(jì)算來(lái)的

ArcGIS中的?七類·空間關(guān)系

距離閾值:在指定范圍內(nèi)權(quán)重為1,剩下就是反距離(距離反比:距離越遠(yuǎn)绣檬,權(quán)重越凶阍伞)

\alpha :一個(gè)常數(shù)(經(jīng)驗(yàn)值在0~3,取0就是全局回歸)

存在問(wèn)題:當(dāng)d_ij=0(回歸點(diǎn)和樣本點(diǎn)重合)時(shí)娇未,權(quán)值無(wú)窮大墨缘。若剔除又會(huì)使精度降低。

因此零抬,我們選擇一個(gè)連續(xù)單調(diào)的?遞減函數(shù)?來(lái)表示 權(quán)重w和距離d之間關(guān)系镊讼,以此來(lái)克服反距離的缺點(diǎn)。(下面列出兩種應(yīng)用最為廣泛的方法)

①Gauss函數(shù)法

b越大平夜,權(quán)重隨距離衰減越慢

但與直接的反距離公式不同:當(dāng)帶寬為0的時(shí)候蝶棋,只有回歸點(diǎn)上的權(quán)值為1,其他各觀測(cè)點(diǎn)的權(quán)重都無(wú)限趨近0忽妒。當(dāng)帶寬無(wú)窮大的時(shí)候玩裙,所有的觀察點(diǎn)權(quán)重都無(wú)限接近1,那么就變成了全局回歸段直。

只要帶寬給定了献酗,距離d為0的時(shí)候 ,權(quán)重達(dá)到最大(w =1)。而隨著距離的增加坷牛,權(quán)重w逐漸減少饮六,當(dāng)離得足夠源的時(shí)候焰轻,權(quán)重w就無(wú)限接近于0了。所以這些足夠遠(yuǎn)的點(diǎn)掖肋,可以看成對(duì)回歸點(diǎn)的參數(shù)估計(jì)幾乎沒(méi)有影響甩苛。

但是蹂楣,如果數(shù)據(jù)非常離散,就會(huì)產(chǎn)生“長(zhǎng)尾效應(yīng)”(大量的數(shù)據(jù)躲得很遠(yuǎn))讯蒲,帶來(lái)大量的計(jì)算開(kāi)銷痊土。所以,在實(shí)際運(yùn)算中墨林,應(yīng)用的是近高斯函數(shù)來(lái)替代高斯計(jì)算赁酝,把那些影響很小的點(diǎn)給截掉,以提高效率旭等。

②Bi-Square函數(shù)

距離閾值法 + Gauss函數(shù)法

回歸點(diǎn)在帶寬的范圍內(nèi)酌呆,通過(guò) “高斯連續(xù)單調(diào)遞減函數(shù)” 計(jì)算數(shù)據(jù)點(diǎn)的權(quán)重,超出的部分搔耕,權(quán)重全部記為0隙袁。

(五)兩種確定帶寬的方法

①“交叉驗(yàn)證法”(Cross Validation)

進(jìn)行回歸參數(shù)估計(jì)時(shí),不包含回歸點(diǎn)本身。

將不同帶寬對(duì)應(yīng)的CV繪制成趨勢(shì)線

最小CV值 → “最佳帶寬”

通俗地說(shuō):把數(shù)據(jù)分成N組菩收,用其中一部分用來(lái)計(jì)算梨睁,另外一部分?jǐn)?shù)據(jù)就用來(lái)驗(yàn)證;之后用另一部分進(jìn)行計(jì)算娜饵,使用前一部分進(jìn)行驗(yàn)證坡贺。

應(yīng)用舉例:驗(yàn)證哪種戰(zhàn)術(shù)效果最好。

具體方法:把所有隊(duì)員分成若干組划咐,然后用不同的戰(zhàn)術(shù)相互進(jìn)行PK拴念。不斷重新隨機(jī)分組再來(lái)一次,最后統(tǒng)計(jì)不同戰(zhàn)術(shù)的勝率褐缠。

②“最小信息準(zhǔn)則”(Akaike information criterion)

AIC = (2倍(模型的獨(dú)立參數(shù)個(gè)數(shù))- 兩倍?ln(模型的極大似然函數(shù)))/?觀測(cè)值個(gè)數(shù)

首先假設(shè):誤差的出現(xiàn)服從獨(dú)立正態(tài)分布政鼠。所以采用極大似然函數(shù)就有意義了。

(極大似然函數(shù):簡(jiǎn)單的說(shuō)队魏,假設(shè)有N種結(jié)果公般,如果我們僅作次實(shí)驗(yàn),出現(xiàn)哪個(gè)結(jié)果胡桨,就認(rèn)為哪個(gè)結(jié)果概率最大官帘。)

當(dāng)我們有一堆可供選擇的模型參數(shù)的時(shí),選AIC最小的昧谊。

(AIC的大小取決于 “獨(dú)立參數(shù)的個(gè)數(shù)” 和 “模型的極大似然函數(shù)兩個(gè)值”刽虹。參數(shù)值少(模型簡(jiǎn)潔),AIC呢诬;極大似然函數(shù)大(模型精確)涌哲,AIC小。

當(dāng)兩個(gè)模型之間存在較大差異的時(shí)候尚镰,這個(gè)差異肯定首先出現(xiàn)在模型的極大似然函數(shù)上阀圾;而這個(gè)函數(shù)沒(méi)有出現(xiàn)顯著的差異的時(shí)候,模型的獨(dú)立參數(shù)個(gè)數(shù)才起作用了狗唉,從而初烘,參數(shù)個(gè)數(shù)越少的模型,表現(xiàn)得越好分俯。也就是這個(gè)原因肾筐,這個(gè)準(zhǔn)則才被稱為:最小信息準(zhǔn)則。(鼓勵(lì)數(shù)據(jù)擬合的優(yōu)良性缸剪,通過(guò)控制自由參數(shù)的多少避免出現(xiàn)過(guò)度擬合局齿。)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市橄登,隨后出現(xiàn)的幾起案子抓歼,更是在濱河造成了極大的恐慌讥此,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谣妻,死亡現(xiàn)場(chǎng)離奇詭異萄喳,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蹋半,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門他巨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人减江,你說(shuō)我怎么就攤上這事染突。” “怎么了辈灼?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵份企,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我巡莹,道長(zhǎng)司志,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任降宅,我火速辦了婚禮骂远,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘腰根。我一直安慰自己激才,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布额嘿。 她就那樣靜靜地躺著贸营,像睡著了一般。 火紅的嫁衣襯著肌膚如雪岩睁。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,718評(píng)論 1 305
  • 那天揣云,我揣著相機(jī)與錄音捕儒,去河邊找鬼。 笑死邓夕,一個(gè)胖子當(dāng)著我的面吹牛刘莹,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播焚刚,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼点弯,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了矿咕?” 一聲冷哼從身側(cè)響起抢肛,我...
    開(kāi)封第一講書(shū)人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤狼钮,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后捡絮,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體熬芜,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年福稳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了涎拉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡的圆,死狀恐怖鼓拧,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情越妈,我是刑警寧澤季俩,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站叮称,受9級(jí)特大地震影響种玛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瓤檐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一赂韵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧挠蛉,春花似錦祭示、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至掰担,卻和暖如春汇陆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背带饱。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工毡代, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人勺疼。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓教寂,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親执庐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子酪耕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355