深度學(xué)習(xí)回歸和OLS的對比

照著R語言和深度學(xué)習(xí)第三章 “3.6預(yù)測房價:一個回歸的例子” 做了一遍,用同樣的數(shù)據(jù)又跑了一遍OLS作對比膛薛,算是對深度學(xué)習(xí)多了點理解。

1. 數(shù)據(jù)

數(shù)據(jù)來自1970年代中期波士頓还最,內(nèi)生變量是郊區(qū)房屋的價格中位數(shù),外生變量包括房屋特征、住房所在區(qū)域的特征等13個變量埃撵。書里沒有具體說明數(shù)據(jù)來源雇寇,也沒有變量名或者標(biāo)簽氢拥,估計是截面數(shù)據(jù)蚌铜,否則應(yīng)該包括年份變量。訓(xùn)練樣本404個嫩海,測試樣本102個冬殃。

2. 模型設(shè)置

  • 層和網(wǎng)絡(luò)
    • 一共三層
    • 前兩層輸出都是64,使用relu激活
    • 第三層輸出為1叁怪,沒有定義激活函數(shù)(即默認(rèn)為線性模型)
  • 優(yōu)化器:rmsprop
  • 損失:均誤方差(MSE审葬,mean squared error,與OLS的目標(biāo)函數(shù)一樣)
  • 監(jiān)控目標(biāo):平均絕對誤差(MAE奕谭,mean absolute error)涣觉。監(jiān)控MSE結(jié)果應(yīng)該不會差很多,選擇MAE大概是為了和內(nèi)生變量單位保持一致展箱,比MSE更容易解釋旨枯。

3. 模型訓(xùn)練

  • 因為是小樣本,采取了K折驗證(K = 4)
  • 在每輪訓(xùn)練中
    • 迭代次數(shù)為100(epochs = 100)
      • 迭代次數(shù)遠(yuǎn)高于前兩個例子混驰,大概是因為樣本量太小
    • 每批樣本為1 (batch_size = 1)
      • 不知道batch_size的設(shè)置原則攀隔,以及這里為什么設(shè)置成1,后面的章節(jié)需要注意一下這個問題
      • 查了一下栖榨,batch_size = 1會影響收斂速度
    • 模型跑下來昆汹,四折平均MAE為2.8左右,高于書里的2.38
  • 按照書里將迭代次數(shù)設(shè)為500又跑了一次婴栽,花了很多時間(10分鐘的樣子)满粗,遠(yuǎn)高于第三章的前兩個例子(上萬樣本、張量展開后需要1G 空間)
    • 精確度表現(xiàn)確實好了一些愚争,但仍然不如書上的數(shù)字
    • MAE最低點的位置跟書上差不多映皆,都在120次迭代出現(xiàn)

4. 測試

  • epochs = 80, batch_size = 16
  • MAE是3左右,比書里高了0.5轰枝,是個不小的差距
  • 試過epochs = 100/120, batch_size = 4/8捅彻,MAE也只降到2.8
  • 降低batch_size特別影響速度

5. OLS模型

為了保持可比性,也是用訓(xùn)練樣本跑的回歸鞍陨,然后使用回歸系數(shù)對測試樣本進(jìn)行預(yù)測步淹,然后計算MAE,結(jié)果為3.3诚撵,就是說精度比深度學(xué)習(xí)方法低了10%缭裆。

為了省事,沒有用K折方法寿烟,由于K折驗證降低樣本量澈驼,估計使用K折或者bootstrap會進(jìn)一步降低精度。

由于不知道自變量的定義筛武,無法采用更有效的模型盅藻,比如傳統(tǒng)的房價模型會把某幾個變量做交叉或者做二次項购桑,這類模型會獲得更高的精度,用這些更好的模型作對比會更有意義氏淑,畢竟深度學(xué)習(xí)模型是高度非線性的。曾經(jīng)用美國的數(shù)據(jù)跑過硕噩,調(diào)一下模型可以使R平方從65%提高到80%假残,那么把精度再提高10%也許不算難事。

6. 結(jié)論與若干細(xì)節(jié)

  1. 研究問題的影響
    住房市場是很成熟的市場炉擅,每個變量的影響在交易過程中已經(jīng)被考慮得很充分辉懒,也就是說市場已經(jīng)給每個變量制定了合理的價格。這些價格的形成來自買家與賣家(也許還有中介)的討價還價過程谍失,也就是來自人的計算眶俩。人在討價還價時不會做特別復(fù)雜的計算,非晨煊悖可能就是靠大腦中的線性模型計算颠印,比如100平米的房子比50平米貴兩倍。這種情況下抹竹,OLS和深度學(xué)習(xí)取得相同的效果是可以理解的线罕。
    但這不是說深度學(xué)習(xí)是多此一舉,更好的解釋是窃判,如果真實的模型是線性的钞楼,那么深度學(xué)習(xí)這個黑箱最終給出的也是個線性模型。對于更復(fù)雜的市場袄琳,或許深度學(xué)習(xí)更有優(yōu)勢询件。
  2. 樣本量的影響
    即便真實的世界定價是非線性的,想從幾百個樣本當(dāng)中提取復(fù)雜的非線性關(guān)系唆樊,恐怕也不容易如蚜。
  3. 運行速度
    大概是batch_size的影響,深度學(xué)習(xí)跑得很慢搓扯,而OLS基本上是一個命令搞定介劫,回車敲下去,立刻出結(jié)果痢艺。再一次仓洼,樣本量如果夠大(再大的樣本OLS還是非常快)堤舒,batch_size設(shè)置大一些色建,速度可能不再是個問題,而且還可能獲得OLS抓不到的效應(yīng)舌缤。
  4. 對世界的理解
    OLS可以看到每個變量的影響箕戳,而且還需要我們思考變量是否內(nèi)生某残,以確定因果關(guān)系。深度學(xué)習(xí)目的卻只在預(yù)測陵吸,無法提供對世界的理解玻墅。經(jīng)濟(jì)學(xué)知識(以及其他社會科學(xué)知識)和計量經(jīng)濟(jì)學(xué)方法,對于理解世界來說壮虫,仍然不可缺少澳厢。好的深度學(xué)習(xí)模型仍然需要和專業(yè)知識合作——至少輸入哪些變量、生成哪些新變量還是需要專家來決定吧囚似。
    現(xiàn)在我明白了Susan Athey為什么會結(jié)論機(jī)器學(xué)習(xí)剩拢,或者AI,并不能用來揭示因果關(guān)系饶唤,只是在模型選擇上提供幫助徐伐。
  5. 幾個細(xì)節(jié)問題
    (1)為了讓模型跑得更快,深度學(xué)習(xí)通常會把因變量進(jìn)行標(biāo)準(zhǔn)化變換募狂,每個變量增加1办素,意味著增加一個標(biāo)準(zhǔn)差。如果是在OLS當(dāng)中做這種變換熬尺,回歸系數(shù)的解釋需要跟著調(diào)整摸屠。但深度學(xué)習(xí)并不在意回歸系數(shù),只要因變量不做標(biāo)準(zhǔn)化粱哼,預(yù)測結(jié)果的單位是保持不變的季二。(當(dāng)然OLS的預(yù)測也不會跟著因變量標(biāo)準(zhǔn)化而變化。)
    (2)OLS通常要考慮的內(nèi)生性揭措、樣本選擇等問題胯舷,原因是一旦出現(xiàn)上述問題,對系數(shù)的估計會出現(xiàn)不一致——也就是說樣本一旦改變绊含,估計結(jié)果會發(fā)生顯著變化桑嘶。機(jī)器學(xué)習(xí)雖然不考慮這些問題,但通過使用測試樣本躬充,可以對估計結(jié)果一致性做出反應(yīng)逃顶,也就是說過擬合〕渖酰或許機(jī)器學(xué)習(xí)方法能夠為計量的結(jié)果提供一些參考以政,這個問題就有待計量經(jīng)濟(jì)學(xué)家去回答了。

Update

(2021.9.23)
TensorFlow for R網(wǎng)站給出了波士頓房價變量說明伴找,所給的代碼也比書里更詳細(xì)盈蛮,值得讀。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末技矮,一起剝皮案震驚了整個濱河市抖誉,隨后出現(xiàn)的幾起案子殊轴,更是在濱河造成了極大的恐慌,老刑警劉巖袒炉,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件旁理,死亡現(xiàn)場離奇詭異,居然都是意外死亡我磁,警方通過查閱死者的電腦和手機(jī)韧拒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來十性,“玉大人,你說我怎么就攤上這事塑悼【⑹剩” “怎么了?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵厢蒜,是天一觀的道長霞势。 經(jīng)常有香客問我,道長斑鸦,這世上最難降的妖魔是什么愕贡? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮巷屿,結(jié)果婚禮上固以,老公的妹妹穿的比我還像新娘。我一直安慰自己嘱巾,他們只是感情好憨琳,可當(dāng)我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著旬昭,像睡著了一般篙螟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上问拘,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天遍略,我揣著相機(jī)與錄音,去河邊找鬼骤坐。 笑死绪杏,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的或油。 我是一名探鬼主播寞忿,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼顶岸!你這毒婦竟也來了腔彰?” 一聲冷哼從身側(cè)響起叫编,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎霹抛,沒想到半個月后搓逾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡杯拐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年霞篡,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片端逼。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡朗兵,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出顶滩,到底是詐尸還是另有隱情余掖,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布礁鲁,位于F島的核電站盐欺,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏仅醇。R本人自食惡果不足惜冗美,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望析二。 院中可真熱鬧粉洼,春花似錦、人聲如沸甲抖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽准谚。三九已至挫剑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間柱衔,已是汗流浹背樊破。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留唆铐,地道東北人哲戚。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像艾岂,于是被迫代替她去往敵國和親顺少。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內(nèi)容