重返61號公路:Markov Chain Revisited

1

美國61號公路是連接法式風情的新奧爾良罕伯,和重重積雪的明尼蘇達的一條南北通道霹期,與加州1號公路敢课,阿甘跑過的66號公路并稱為三大公路寡喝,它對于美國公路文化糙俗、公路精神的意義不言而喻。


61號公路

馬爾可夫鏈在隨機過程的重要性也同樣如此预鬓。統(tǒng)計學家 Peter Whittle 曾說過:

"Any stochastic process can be formulated as a Markov process by an appropriate choice of variables."

隨著人工智能的浪潮奔涌巧骚,作為技術(shù)基石的馬爾可夫鏈也引起了廣泛的重視,那么這個看起來無所不能的隨機過程模型究竟神奇在哪里呢?

2

大道至簡网缝,偉大的作品往往起源于樸素的思想巨税,馬爾可夫鏈的思想就非常的簡單,一言以蔽之:

遺忘過去粉臊,把握現(xiàn)在草添,影響將來

讓我們用(不嚴格的)數(shù)學語言展開:
假設(shè) Xn[n>=0] 是隨機過程,我們稱 Xn[n>=0] 為馬爾可夫鏈當 Xn[n>=0] 滿足下列條件:

  • P (Xn = x|X0, . . . , Xn?1) = P (Xn = x|Xn?1) ?n?x.

也就是說扼仲,未來的任一狀態(tài)只和當前狀態(tài)相關(guān)远寸,和其他更早的狀態(tài)無關(guān)。舉個例子:


馬爾可夫男朋友

當然數(shù)學上馬爾可夫性質(zhì)需要滿足一些更為嚴格的條件屠凶,如

  • 每個狀態(tài)的保持時間 (holding time) 滿足指數(shù)簇分布
  • 狀態(tài)轉(zhuǎn)換必須是平滑的驰后,不能有跳躍 (jump)

在實際應用中一般也很難嚴格地滿足馬爾可夫約束,但是道高一丈矗愧,對于這些隨機過程也可以通過一些統(tǒng)計技術(shù)用馬爾可夫鏈來近似灶芝。

好的,當馬爾可夫性質(zhì)具備之后唉韭,用處在哪呢夜涕?這就是馬爾可夫鏈的基本定理的內(nèi)容:

一個不可約的 (irreducible)、可遍歷 (ergodic) 的馬爾可夫鏈有唯一的穩(wěn)態(tài)分布属愤,并且等于它的極限分布女器。

這就厲害了。不管初始時怎樣的狀態(tài)住诸,最終都會到一個穩(wěn)定分布驾胆,簡而言之如下圖所示:


天注定

3

講了這些馬爾可夫鏈的性質(zhì),它到底有哪些實際的應用呢贱呐?
馬爾可夫自己就舉了一個文藝的例子丧诺。
在紀念伯努利200周年誕辰的出版書上,他在自己書后附了一個例子吼句,將馬爾可夫鏈用在普希金的長詩《葉甫蓋尼·奧涅金》锅必,并附上了一些有趣的發(fā)現(xiàn):


葉甫蓋尼·奧涅金
  • 元音的轉(zhuǎn)移概率有一定規(guī)律
  • 元音的穩(wěn)態(tài)概率約為0.4

這個開創(chuàng)性的工作啟發(fā)了很多其他領(lǐng)域的學者,哲學家和歷史學家 Nikolai
A. Morozov 稱贊馬爾可夫的方法是

*“a new weapon for the analysis of ancient scripts” *

信息論的奠基人香農(nóng)進一步擴展了馬爾可夫鏈在語言上的應用惕艳,并且可能是歷史上最早開始使用 trigrams 的人搞隐,同時,香農(nóng)也引進馬爾可夫鏈到通信系統(tǒng)远搪。

另外一個不那么久遠的例子就是谷歌的搜索 PageRank劣纲,盡管如今谷歌搜索排序的模型已經(jīng)極為復雜

"Today we use more than 200 signals, including PageRank, to order websites."

但在當時 PageRank 對搜索結(jié)果的影響非常大。在1997-1998年前后谁鳍,所有互聯(lián)網(wǎng)上能找到的搜索引擎癞季,每十條結(jié)果只有兩三條是相關(guān)的劫瞳、有用的。而尚在斯坦福大學實驗室襁褓之中的 Google 已經(jīng)能做到七八條符合绷柒, 這個差別志于,差不多就是 iPhone 和 Nokia 的差別,也在某種程度上表明搜索時代的到來废睦。這使得 Google 能迅速打敗以前所有搜索引擎伺绽,奠定了其在搜索引擎的霸主地位,從這點來說 PageRank 的意義深遠嗜湃。

4

在馬爾可夫鏈的基礎(chǔ)上奈应,衍生了許多統(tǒng)計技術(shù)和模型。隱馬爾可夫模型 (Hidden Markov Models, HMMs) 就是其中非常重要的一個分支购披。

顧名思義杖挣,HMMs 就是在馬爾夫鏈的基礎(chǔ)上加了一層隱層,實際的狀態(tài)是不可見的刚陡,觀察的狀態(tài)結(jié)果是由實際狀態(tài)生成的惩妇。

隱馬爾可夫模型

HMMs 在語言識別上大獲成功,實際上筐乳,在端到端的深度學習技術(shù)成熟之前屿附,HMMs 在語言識別、機器翻譯等領(lǐng)域一直是首選的基準模型哥童。當然,華爾街上各類對沖基金也早已嘗試把相關(guān)技術(shù)應用到金融投資領(lǐng)域褒翰。

但 HMMs 不是我們這次的主角贮懈,而是馬爾可夫鏈的另一衍生技術(shù)馬爾可夫決策過程 (Markov Decision Processes, MDPs)。

MDPs 在馬爾可夫鏈的基礎(chǔ)上增加了動作 (action) 的概念优训,每個狀態(tài)通過某個動作來轉(zhuǎn)移到其他的狀態(tài)朵你,并且對于每個狀態(tài)轉(zhuǎn)移,還有一個回報函數(shù) (rewarding function)揣非。

更數(shù)學化地抡医,一個 MDP 由一個四元組構(gòu)成M = (S, A, Psa, ??):

  • S: 表示狀態(tài)集 (states),有 s∈S早敬,si 表示第i步的狀態(tài)忌傻。
  • A: 表示一組動作 (actions),有 a∈A搞监,ai 表示第i步的動作水孩。
  • ??sa: 表示狀態(tài)轉(zhuǎn)移概率。??s?? 表示的是在當前 s ∈ S 狀態(tài)下琐驴,經(jīng)過 a ∈ A 作用后俘种,會轉(zhuǎn)移到的其他狀態(tài)的概率分布情況秤标。比如,在狀態(tài) s 下執(zhí)行動作 a宙刘,轉(zhuǎn)移到s' 的概率可以表示為 p(s'|s,a)苍姜。
  • R: S×A?? ,R是回報函數(shù) (reward function)悬包。有些回報函數(shù)狀態(tài) S 的函數(shù)衙猪,可以簡化為 R: S??。如果一組 (s,a) 轉(zhuǎn)移到了下個狀態(tài) s'玉罐,那么回報函數(shù)可記為r(s'|s, a)屈嗤。如果 (s,a) 對應的下個狀態(tài) s'是唯一的,那么回報函數(shù)也可以記為 r(s,a)吊输。
馬爾可夫決策過程

一個策略 (policy) 的是指的 MDPs 的一系列動作饶号,這些動作能夠使得最終(某種形式)的回報函數(shù)能夠滿足我們的要求。由于 MDP 問題的目標通常優(yōu)化某個長期的結(jié)果季蚂,具有延遲回報的特點茫船,那么(立即)回報函數(shù)沒法滿足要求,因此需要定義值函數(shù) (value function) 來定義策略的長期效果扭屁。

常見的值函數(shù)如下所示:



其中 γ∈[0,1] 稱為折合因子算谈,表明了未來的回報相對于當前回報的重要程度。

那么一個MDP的最優(yōu)策略可以由下式表示:


給定策略 π 和初始狀態(tài) s料滥,則動作 a=π(s)然眼,下個時刻將以概率 p(s'|s,a) 轉(zhuǎn)向下個狀態(tài) s',那么值函數(shù)可以拆開重寫為:


MDPs 的求解思路也類似于 HMMs, 本質(zhì)上動態(tài)規(guī)劃的思想葵腹,通過迭代策略(策略估計+策略優(yōu)化)來得到最優(yōu)策略高每,同時通過值迭代來近似策略迭代的計算。


策略迭代
策略迭代

5

MDPs 一大熱門應用就是現(xiàn)在大火的強化學習 (Reinforcement Learning)践宴,簡單來說鲸匿,強化學習要解決的就是馬爾可夫決策過程 (MDP),即執(zhí)行不同的行為到達不同的狀態(tài)阻肩,它由組成带欢,從而可以圍繞著求解環(huán)境 (environment)、策略烤惊、值函數(shù)三者展開的乔煞,有時已知環(huán)境有時未知環(huán)境,有時要顯式的算出策略柒室,有時要求的又是動作值函數(shù) (action-value function)瘤缩。與監(jiān)督學習不同之處在于 MDP 當前的某個狀態(tài)下對最終的結(jié)果的影響是不確定的,往往是要結(jié)合過去的一段行為和將來的一段行為才能確定當前的這個狀態(tài)的影響伦泥,而監(jiān)督學習在求解過程中會認為當前這個狀態(tài)對最終結(jié)果有確定的影響剥啤,所以監(jiān)督學習無法直接解決 MDP 問題锦溪。

這也是為什么有人認為,強化學習(和無監(jiān)督學習)才是通向強人工智能的正軌府怯,因為這可能符合人類自身學習的一般規(guī)律刻诊,當前行為對長期結(jié)果的影響往往不是那么確定的。

Alpha Go 是一個強化學習(與深度學習)結(jié)合取得較大進展的例子牺丙,它主要由以下幾部分構(gòu)成:

  • 走棋策略神經(jīng)網(wǎng)絡(Policy Network)则涯,給定當前局面,預測/采樣下一步的走棋冲簿。
  • 快速走棋策略(Fast rollout)粟判,適當犧牲走棋質(zhì)量的條件下,快速走棋峦剔。
  • 值函數(shù)神經(jīng)網(wǎng)絡(Value Network)档礁,給定當前局面,估計是白勝還是黑勝吝沫。
  • 蒙特卡羅樹搜索(Monte Carlo Tree Search呻澜,MCTS),一種啟發(fā)式搜索算法惨险,連接上述三個部分羹幸,形成一個完整的系統(tǒng)。
Alpha Go

這里面的走棋過程就是強化學習過程辫愉,并且結(jié)合深度學習來進行策略和值函數(shù)的計算栅受、估計。Alpha Go 相比它的圍棋算法前輩能取得巨大成功恭朗, 除了強化學習結(jié)合了深度學習窘疮,利用自我博弈產(chǎn)生海量樣本以外,更大的原因其實是來自于研究團隊長期的積累冀墨,在系統(tǒng)優(yōu)化細節(jié)上傾注了大量的精力。

這也說明了目前盡管強化學習引起了廣泛的關(guān)注涛贯,發(fā)展迅猛诽嘉,但還是舊瓶裝新酒(強化學習早在上個世界80年代就已出現(xiàn)),與特定領(lǐng)域弟翘、環(huán)境息息相關(guān)虫腋,離真正的強人工智能還有相當?shù)木嚯x。

6

溫故知新稀余,馬爾可夫鏈雖然是100年前的技術(shù)悦冀,但迄今仍然深刻地影響著前沿研究的發(fā)展,在人工智能睛琳,尤其是強化學習中仍然是最基礎(chǔ)的根基盒蟆。正如 MDP 的思想所言踏烙,雖然我們當下的工作無法確定地衡量對將來的影響,但正是靠著不斷試錯 (trial-and-error)历等,不斷迭代讨惩,在往外探索和向內(nèi)深挖 (exploration-exploitation) 中不斷平衡,我們才有可能接近最終的最優(yōu)解寒屯。

在2012年的 MIT 科技評論上曾經(jīng)批判現(xiàn)在科技發(fā)展的方向看起來不是在解決宏觀大問題荐捻,而是帶來了 Facebook、Google 等這樣的科技公司寡夹。


但現(xiàn)在处面,我們都看到了 Facebook、Google 等公司在人工智能上的發(fā)力與突破菩掏,組成了人工智能聯(lián)盟魂角,加速推進人工智能的進一步發(fā)展,同時也促進了人工智能在各個領(lǐng)域更深一步的應用患蹂,包括自動駕駛或颊、航空航天都受益于人工智能的發(fā)展的紅利。

從這個角度看传于,科技的發(fā)展不也是一個 MDP 嗎囱挑,當下的每一點進展對將來的影響雖然是不確定的,但就是依靠當下的每一點積累沼溜,進而才有可能在長期的發(fā)展中形成突破平挑。

順便, 短短4年后,一個叫 Elon Musk 的人說:

We promised Mars Colonies and we're gonna make it real.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末系草,一起剝皮案震驚了整個濱河市通熄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌找都,老刑警劉巖唇辨,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異能耻,居然都是意外死亡赏枚,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門晓猛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來饿幅,“玉大人,你說我怎么就攤上這事戒职±醵鳎” “怎么了?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵洪燥,是天一觀的道長磕秤。 經(jīng)常有香客問我乳乌,道長,這世上最難降的妖魔是什么亲澡? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任钦扭,我火速辦了婚禮,結(jié)果婚禮上床绪,老公的妹妹穿的比我還像新娘客情。我一直安慰自己,他們只是感情好癞己,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布膀斋。 她就那樣靜靜地躺著,像睡著了一般痹雅。 火紅的嫁衣襯著肌膚如雪仰担。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天绩社,我揣著相機與錄音摔蓝,去河邊找鬼。 笑死愉耙,一個胖子當著我的面吹牛贮尉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播朴沿,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼猜谚,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了赌渣?” 一聲冷哼從身側(cè)響起魏铅,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎坚芜,沒想到半個月后览芳,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡鸿竖,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年沧竟,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片千贯。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖搞坝,靈堂內(nèi)的尸體忽然破棺而出搔谴,到底是詐尸還是另有隱情,我是刑警寧澤桩撮,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布敦第,位于F島的核電站峰弹,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏芜果。R本人自食惡果不足惜鞠呈,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望右钾。 院中可真熱鬧蚁吝,春花似錦、人聲如沸舀射。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽坏瘩。三九已至志秃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間邢羔,已是汗流浹背驼抹。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留拜鹤,地道東北人框冀。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像署惯,于是被迫代替她去往敵國和親左驾。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 機器學習的核心思想就是根據(jù)已知的內(nèi)容去推測未知的內(nèi)容极谊,然后在已知和未知之間建立起聯(lián)系诡右,這個聯(lián)系就是機器學習中的各種...
    閃電隨筆閱讀 3,890評論 1 7
  • 一. 增強學習簡介 1.1 什么是增強學習? 機器學習的算法可以分為三類:監(jiān)督學習轻猖,非監(jiān)督學習和增強學習帆吻。 增強學...
    阿阿阿阿毛閱讀 31,157評論 0 25
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識。這篇文章咙边,甚至之后...
    我偏笑_NSNirvana閱讀 13,906評論 2 64
  • 本系列第三篇猜煮,承接前面的《淺談機器學習基礎(chǔ)》和《淺談深度學習基礎(chǔ)》。 自然語言處理緒論 什么是自然語言處理败许? 自然...
    我偏笑_NSNirvana閱讀 17,578評論 2 68
  • 從來年少莫躊躇王带,且趁青春好讀書。一孔石穿由滴水市殷,千株花茂賴勤鋤愕撰。墨班技藝同歸巧,禹鯀思謀異在疏。都說白駒猶過隙搞挣,苦...
    軒若臨風閱讀 719評論 6 3