CMU AI PhD 第一年總結(jié)

大家好券腔,我是對白拘泞。

今天給大家分享一位大佬在Facebook做了四年機器學(xué)習(xí),又到CMU攻讀AI PhD的經(jīng)歷陪腌,希望給后續(xù)也想要深造的朋友們一點經(jīng)驗和幫助烟瞧,以下為原文染簇。

作者:SpadeAce?| 編輯:對白的算法屋https://zhuanlan.zhihu.com/p/519841457

不知不覺在 CMU 待了快一年了,時間過得可太快了卵洗。弥咪。。以前總覺得 PhD 五年時間很漫長聚至,實際上第一年已經(jīng)不知不覺溜走了,給人感覺也就過了一個月脆诉。贷币。击胜。第一年過得很開心役纹,然而感覺個人的成長卻沒有很多,主要還是自己花的時間不夠多辰斋,之后應(yīng)該更努力一些瘸味。

關(guān)于Research

我一直蠻明確自己的 research taste,想要做 “可以解決實際問題的 research旁仿,且方法是 principled,是 theoretically motivated 的”汁胆。這類 research 我總結(jié)一般有如下幾個步驟:

  • 發(fā)現(xiàn)一個好的問題:一個 well-motivated 的真實存在的問題
  • 把實際問題抽象化霜幼,提出 Mathematical formulation
  • 基于提出的 Mathematical formulation誉尖,提出 principled 的方法去解決。這種方法一般是有道理的,通過數(shù)學(xué)推導(dǎo)得出的丢间。
  • 做實驗去驗證提出的方法的有效性驹针。一個好的方法應(yīng)該大概率是放之四海而皆準(zhǔn)的,大概率可以應(yīng)用在多數(shù)真實場景之下的柬甥。當(dāng)方法不 work 的時候,因為有背后的數(shù)學(xué)做指導(dǎo)卤橄,大概率也知道為什么不 work臂外,以及怎么調(diào)整使得方法 work。我很佩服我合作者的一點就是漏健,對于背后的數(shù)學(xué)十分熟悉,常常在做實驗之前就可以預(yù)測實驗結(jié)果厂抖;當(dāng)實驗結(jié)果不 work 的時候克懊,也知道是哪些假設(shè)不滿足,并且很快就能提出基于數(shù)學(xué)的解決方法谭溉。
  • 最近我們在 arxiv 上面 post 了一個我個人很喜歡的工作,這個工作主要解決的問題是:在推薦系統(tǒng)當(dāng)中损搬,因為 maximization bias 而導(dǎo)致的 prediction over-estimation 的問題柜与。雖然 maximization bias 在 RL 里面比較有名,我個人之前沒聽說過有誰意識到 maximization bias 也會導(dǎo)致推薦系統(tǒng)中的 prediction over-estimization弄匕。而我們解決這個問題的方法就是按照上面幾步曲來做的。

    通過這個工作剩瓶,我深刻的認(rèn)識到了自己的不足:technical 水平(數(shù)學(xué)水平)實在差的太遠(yuǎn)。延曙。。上述的第一步第四步我都能比較自信的解決布疙,但是這第二步第三步有點超出我現(xiàn)在的能力范圍了愿卸。。擦酌。數(shù)學(xué)這東西也沒有什么捷徑,只能慢慢積累睁搭。希望之后幾年能提高我的 technical 水平笼平。

    業(yè)界的方法VS學(xué)界的方法

    可能是因為我工作過蠻長時間,我解決問題的思路和方法也都很業(yè)界:重解決問題寓调,而輕方法的 guarantee。我比較喜歡的解決 ML 問題 empirically 的方法論是:

  • 發(fā)現(xiàn)一個好的問題(同上)
  • 提出 hypothesis(假設(shè))來解釋我們?yōu)槭裁磿羞@個問題晌涕。那么又該如何提出好的假設(shè)呢痛悯?通過不同的 view(視角)來分析同一個問題,比如 statistical view, causal view etc.
  • 做實驗來驗證假設(shè)
  • 如果假設(shè)驗證成功载萌,基于假設(shè)有的放矢的提出解決方案
  • 回到上面 maximization bias 的例子。作為 engineer垮衷,一開始發(fā)現(xiàn)的問題就是上線的模型效果不好(prediction over-estimization)乖坠,但是并不知道是什么導(dǎo)致的。這時候就需要提出假設(shè):如果我們認(rèn)為每個 prediction 都有 variance瓤帚,那么之后的 selection step 就會導(dǎo)致那些被 over-estimated 的 prediction 更容易被選擇到涩赢,也就出現(xiàn)了 maximization bias轩勘。有了假設(shè)怯邪,實驗便很容易設(shè)計了:同時上線若干個類似的模型,可以發(fā)現(xiàn)每個模型只在自己 serve 的 traffic 上有 over estimation澄步,而在其他模型 serve 的 traffic 一直都是 well calibrated 的和泌。基于這個被驗證的假設(shè)武氓,解決方法可以參考 RL 里面經(jīng)典的方法,比如一個模型用來 select东羹,一個模型用來 predict忠烛。

    到此為止,我覺得這是一個很好的業(yè)界解決 prediction over-estimization 的 empirical work:解釋清楚了這個現(xiàn)象的原因美尸,并提出了解決方法师坎。但是卻沒能更進一步:把問題抽象化,通過數(shù)學(xué)的方法進行分析屹耐,并提出更好的解決方案。我個人感覺這就是業(yè)界學(xué)界解決問題的方法的不同之處之一:業(yè)界解決完問題就結(jié)束了寿弱,不會進行更深入的思考按灶,也不會要求解決方法的數(shù)學(xué) guarantee,empirically 解決了問題就大功告成鸯旁。而學(xué)界常常要求進行深入思考量蕊,并對提出的方法有一些數(shù)學(xué)上 guarantee 的要求艇挨,至少要解釋清楚,這個方法什么時候 work势就,什么時候不 work脉漏,assumptions 是什么。如果沒有某些情況下的 guarantee侧巨,那么提出的方法顯得很 ad hoc,很難變得 convincing皇忿。我就常常在這一步被卡住烘贴,還需要好好提高 technical 水平。桨踪。。

    業(yè)界給人帶來很多很好的實際問題锻离,學(xué)界給人帶來扎實的 technical 基礎(chǔ)汽纠,能夠使人不僅僅局限于最好想的 naive 的解決方法。以后要多去業(yè)界看看虱朵,積累好的問題;同時在學(xué)界踏下心來絮宁,夯實基礎(chǔ)服协。

    ?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
    • 序言:七十年代末,一起剝皮案震驚了整個濱河市窘游,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌忍饰,老刑警劉巖,帶你破解...
      沈念sama閱讀 219,366評論 6 508
    • 序言:濱河連續(xù)發(fā)生了三起死亡事件撩荣,死亡現(xiàn)場離奇詭異饶深,居然都是意外死亡,警方通過查閱死者的電腦和手機逛拱,發(fā)現(xiàn)死者居然都...
      沈念sama閱讀 93,521評論 3 395
    • 文/潘曉璐 我一進店門敌厘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人朽合,你說我怎么就攤上這事俱两。” “怎么了曹步?”我有些...
      開封第一講書人閱讀 165,689評論 0 356
    • 文/不壞的土叔 我叫張陵宪彩,是天一觀的道長。 經(jīng)常有香客問我讲婚,道長尿孔,這世上最難降的妖魔是什么? 我笑而不...
      開封第一講書人閱讀 58,925評論 1 295
    • 正文 為了忘掉前任活合,我火速辦了婚禮,結(jié)果婚禮上物赶,老公的妹妹穿的比我還像新娘白指。我一直安慰自己,他們只是感情好酵紫,可當(dāng)我...
      茶點故事閱讀 67,942評論 6 392
    • 文/花漫 我一把揭開白布告嘲。 她就那樣靜靜地躺著,像睡著了一般奖地。 火紅的嫁衣襯著肌膚如雪橄唬。 梳的紋絲不亂的頭發(fā)上,一...
      開封第一講書人閱讀 51,727評論 1 305
    • 那天鹉动,我揣著相機與錄音轧坎,去河邊找鬼。 笑死泽示,一個胖子當(dāng)著我的面吹牛缸血,可吹牛的內(nèi)容都是我干的蜜氨。 我是一名探鬼主播,決...
      沈念sama閱讀 40,447評論 3 420
    • 文/蒼蘭香墨 我猛地睜開眼捎泻,長吁一口氣:“原來是場噩夢啊……” “哼飒炎!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起笆豁,我...
      開封第一講書人閱讀 39,349評論 0 276
    • 序言:老撾萬榮一對情侶失蹤郎汪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后闯狱,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體煞赢,經(jīng)...
      沈念sama閱讀 45,820評論 1 317
    • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
      茶點故事閱讀 37,990評論 3 337
    • 正文 我和宋清朗相戀三年哄孤,在試婚紗的時候發(fā)現(xiàn)自己被綠了照筑。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
      茶點故事閱讀 40,127評論 1 351
    • 序言:一個原本活蹦亂跳的男人離奇死亡瘦陈,死狀恐怖凝危,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情晨逝,我是刑警寧澤蛾默,帶...
      沈念sama閱讀 35,812評論 5 346
    • 正文 年R本政府宣布,位于F島的核電站捉貌,受9級特大地震影響支鸡,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜昏翰,卻給世界環(huán)境...
      茶點故事閱讀 41,471評論 3 331
    • 文/蒙蒙 一苍匆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧棚菊,春花似錦浸踩、人聲如沸。這莊子的主人今日做“春日...
      開封第一講書人閱讀 32,017評論 0 22
    • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至码邻,卻和暖如春折剃,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背像屋。 一陣腳步聲響...
      開封第一講書人閱讀 33,142評論 1 272
    • 我被黑心中介騙來泰國打工怕犁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
      沈念sama閱讀 48,388評論 3 373
    • 正文 我出身青樓奏甫,卻偏偏與公主長得像戈轿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子阵子,可洞房花燭夜當(dāng)晚...
      茶點故事閱讀 45,066評論 2 355

    推薦閱讀更多精彩內(nèi)容