圖解抄錄筆記【圖靈的貓】葫哗,目的是過程加深理解及思考括享。
01 | 如何讓自己像王者榮耀一樣發(fā)了瘋的學(xué)習(xí)
玩王者榮耀是為了什么扣汪?
除去客觀因素消磨時(shí)間河闰,玩王者榮耀是為了拿五殺科平、推掉水晶,還是陪同伴一起玩耍姜性,享受在游戲中暢快地傾瀉技能瞪慧。
這些都不是本質(zhì)原因,單純的獲勝和五殺部念,并不能促使打開下一局游戲弃酌。
本質(zhì)上,我們對(duì)游戲的快感儡炼,是大腦對(duì)游戲反饋機(jī)制的一種獎(jiǎng)勵(lì)矢腻。
它由我們多巴胺決定,但多巴胺不等同于快感射赛,它是對(duì)快感的預(yù)期或追求。
當(dāng)你獲勝或者拿到擊殺奶是,腎上腺楣责、催產(chǎn)素分泌增多,會(huì)感到愉悅聂沙、興奮秆麸。但對(duì)大腦情緒來說,這些只是短暫的情緒快感及汉,多巴胺構(gòu)建的信號(hào)思維機(jī)制沮趣,才是決定你會(huì)不會(huì)接著玩下去,接下來打開游戲的關(guān)鍵坷随。
換句話說房铭,多巴胺賦予你沉迷游戲的欲望。
在多巴胺的信號(hào)機(jī)制中温眉,它不會(huì)賦予你快感缸匪,而是賦予大腦接下來的思路。
正由于多巴胺是直接作用于大腦的獎(jiǎng)勵(lì)回路类溢,于是一次又一次的打開王者榮耀凌蔬,周而復(fù)始,這就是我們玩王者榮耀的根本原因。
反饋回路
大腦構(gòu)造的反饋回路砂心,是我們沉迷游戲的底層根本原因懈词。我們來理解反饋回路的底層原理。
假設(shè)你是個(gè)剛玩MOBA類游戲的玩家辩诞。
一開始只知道推掉敵方水晶坎弯,于是孤身進(jìn)入防御塔范圍,被擊殺躁倒,感到失望荞怒。
于是,泉水復(fù)活秧秉,孤身進(jìn)入泉水的概率降低褐桌,并選擇跟隨兵線一起進(jìn)入(動(dòng)作)概率增加。并推掉敵方防御塔象迎,推掉水晶荧嵌,獲得勝利,得到了反饋:滿足砾淌。
根據(jù)反饋結(jié)果啦撮,大腦判斷第二種路徑更好。因此下次循環(huán)汪厨,你選擇跟隨兵線的概率會(huì)繼續(xù)增加赃春。
最終,強(qiáng)化這條反饋回路的效果劫乱。
反饋回路并不復(fù)雜织中,它只是一種信號(hào)、動(dòng)作衷戈、反饋機(jī)制狭吼。
由五個(gè)組成部分
環(huán)境:你的交互環(huán)境,比如游戲
狀態(tài):你所處的狀態(tài)殖妇,比如擊殺刁笙、被擊殺或獲勝
動(dòng)作:打開游戲、操作角色或關(guān)掉游戲
更新:提高或降低你做出某個(gè)動(dòng)作的概率谦趣,可以理解為大腦信號(hào)的強(qiáng)弱
獎(jiǎng)勵(lì):獲勝的愉悅疲吸,也即快感預(yù)期。
當(dāng)進(jìn)入游戲(環(huán)境)前鹅,每步動(dòng)作磅氨,會(huì)影響到接下來或更遠(yuǎn)的狀態(tài)(失望、滿足)嫡纠,反饋可以為正也可以為負(fù)烦租。
反饋回路的構(gòu)造方法之一:加強(qiáng)對(duì)目標(biāo)的預(yù)期反饋延赌,反饋強(qiáng)化。
反饋強(qiáng)化
游戲帶給玩家的反饋是否足夠叉橱、是否迅速挫以,是決定一個(gè)游戲是否有趣的基礎(chǔ)。
游戲廠商所做事情窃祝,就是加強(qiáng)掐松、加快反饋回路機(jī)制。
比如
提高動(dòng)作的收益:推掉水晶 勝利不僅升段位粪小、還升積分大磺。
增加不確定性:讓玩家耗費(fèi)更多次的嘗試來確定反饋回路。比如游戲隨機(jī)皮膚探膊。
常見游戲系統(tǒng)有以下三種反饋強(qiáng)化模式
固定比率強(qiáng)化:每打贏十場(chǎng)杠愧,必定升段位
固定時(shí)距強(qiáng)化:每3小時(shí)可以抽一次寶箱
不固定比率強(qiáng)化:陰陽(yáng)師抽SSR卡
這三種方法,將強(qiáng)化學(xué)習(xí)中的不確定性獎(jiǎng)勵(lì)逞壁,固化為確定性收益:留存率流济、在線人數(shù)、凈收入腌闯。
強(qiáng)化學(xué)習(xí)
反饋回路和反饋強(qiáng)化就是構(gòu)成人工智能理論中绳瘟,強(qiáng)化學(xué)習(xí)的基礎(chǔ)機(jī)制。
強(qiáng)化(Reinforcement)是指在不斷嘗試中姿骏,個(gè)體所學(xué)習(xí)到的反饋回路糖声,不斷更新,并最終優(yōu)化到可能目標(biāo)的過程分瘦。它和監(jiān)督式機(jī)器學(xué)習(xí)一樣是構(gòu)成人工智能的基石姨丈。
從生物學(xué)角度來講,強(qiáng)化學(xué)習(xí)更符合人類的進(jìn)化方式擅腰,不符合正反饋的種族,就注定被環(huán)境所更新翁潘、淘汰趁冈。
人類之所以為人類,是因?yàn)槌丝偨Y(jié)舊有知識(shí)并發(fā)現(xiàn)規(guī)律外拜马,還會(huì)不斷嘗試和探索渗勘。
現(xiàn)如今,最強(qiáng)大的AI系統(tǒng)就是谷歌的ALPHAGO俩莽,它擁有人類望塵莫及的學(xué)習(xí)能力旺坠,每日與自己對(duì)弈10萬(wàn)局,根據(jù)對(duì)弈結(jié)果扮超,強(qiáng)化棋盤落子的反饋回路取刃。
如果說監(jiān)督式機(jī)器學(xué)習(xí)是一種方法抽取蹋肮,那強(qiáng)化學(xué)習(xí)則是方法探索,在某種意義上璧疗,強(qiáng)化學(xué)習(xí)更接近想象中的人工智能坯辩。
了解強(qiáng)化學(xué)習(xí)的機(jī)制,我們就能發(fā)現(xiàn)“學(xué)習(xí)”這個(gè)動(dòng)作的本質(zhì)崩侠。
學(xué)習(xí)漆魔,究竟是為了什么?
不打游戲却音,是為了更好的學(xué)習(xí)改抡,更好的學(xué)習(xí),是為了更好的生活系瓢。那阿纤,什么是更好的生活?
可以痛快地玩游戲八拱,算不算更好的生活呢阵赠?我們從小被教導(dǎo)要好好學(xué)習(xí),卻從來沒思考過為什么要好好學(xué)習(xí)肌稻。如果連成因清蚀、機(jī)制都不了解,看再多的思維教學(xué)爹谭、學(xué)習(xí)導(dǎo)論枷邪,也沒有辦法讓自己高效地執(zhí)行學(xué)習(xí)這件事。
我們真的厭惡學(xué)習(xí)嗎诺凡?
其實(shí)东揣,站在人工智能角度來講,學(xué)習(xí)和打王者榮耀沒有本質(zhì)區(qū)別腹泌。
學(xué)習(xí)是枯燥的過程嘶卧,要背單詞、寫題凉袱、考試芥吟,多次練習(xí),玩游戲也是专甩,要記憶每個(gè)英雄的技能钟鸵、走位技巧、出裝順序涤躲,也要通過多次對(duì)局來練習(xí)棺耍。
在強(qiáng)化學(xué)習(xí)系統(tǒng)中,它們都是一件東西种樱,即:動(dòng)作蒙袍。
動(dòng)作無所謂枯燥和有趣俊卤,關(guān)鍵在于所處的狀態(tài)和預(yù)期的獎(jiǎng)勵(lì)。
人類厭惡枯燥的東西左敌,所以當(dāng)游戲有趣瘾蛋,學(xué)習(xí)變得索然無味時(shí),我們就會(huì)討厭學(xué)習(xí)矫限。
但是有的人卻能堅(jiān)持學(xué)習(xí)并樂在其中哺哼,為什么?
答案是反饋機(jī)制叼风。
當(dāng)學(xué)習(xí)的動(dòng)作帶給人的收益為正時(shí)取董,就會(huì)獲得我們所說的快感預(yù)期,也即前文所提到的多巴胺无宿。
如果只靠意志力去學(xué)習(xí)茵汰,就像不斷繃緊一根弦,強(qiáng)行違背生理的感覺孽鸡,到最后早晚會(huì)斷掉蹂午。我們絕大多數(shù)人,沒有移山填海的毅力彬碱,因此這樣的學(xué)習(xí)方法是不科學(xué)的豆胸。
大腦發(fā)出指令的動(dòng)機(jī),其實(shí)和海洋館的海豹一樣巷疼,頂一次球晚胡、給一條魚,只有不斷受到正向反饋嚼沿,才會(huì)自然而然地保持前進(jìn)的動(dòng)力估盘。
搞清楚這一點(diǎn),就可以思考:如何讓自己像王者榮耀一樣的沉迷學(xué)習(xí)骡尽。
我們?cè)撛趺醋觯?/h2>
學(xué)霸和學(xué)渣的區(qū)別就在于對(duì)快感的預(yù)期不同遣妥,預(yù)期不同形成的反饋也不同。
學(xué)霸:看作一個(gè)高效的學(xué)習(xí)系統(tǒng)攀细,具備完整的反饋回路以及有效的反饋強(qiáng)化箫踩。
成為學(xué)霸,以下三點(diǎn)是基礎(chǔ):
1辨图、縮短反饋周期
反饋周期長(zhǎng)→半衰期長(zhǎng)
反饋周期長(zhǎng),是大部分人無法堅(jiān)持的原因肢藐。舉個(gè)例子故河,有的人高中成績(jī)很好,大學(xué)變差吆豹。
高中學(xué)習(xí)一周鱼的,就有個(gè)考試測(cè)試理盆,獲得好的名次,有家長(zhǎng)老師表?yè)P(yáng)凑阶,這個(gè)反饋能持續(xù)幾天猿规,沒等消退,下一個(gè)考試又來宙橱。而大學(xué)姨俩,學(xué)習(xí)一學(xué)期,只為了GPA積分师郑,獲得好的積分环葵,外界也沒有反饋,因此宝冕,大多數(shù)人堅(jiān)持不來张遭。
取而代之,相當(dāng)一大部分人地梨,在大學(xué)考試前一周突擊學(xué)習(xí)菊卷,就可以獲得較好獎(jiǎng)勵(lì),比如及格宝剖。
所以洁闰,想辦法減少你的反饋周期。比如將大目標(biāo)分解成小目標(biāo)诈闺,會(huì)更容易塑造一個(gè)連續(xù)的回路渴庆。
2、增加反饋強(qiáng)化
之前提到的游戲三種反饋強(qiáng)化雅镊,換成學(xué)習(xí)的三種反饋強(qiáng)化襟雷。
固定比率強(qiáng)化——比如進(jìn)步累積進(jìn)步10名,就請(qǐng)自己吃一次燒烤
固定時(shí)距強(qiáng)化——再看三小時(shí)數(shù)就去打王者榮耀
-
不固定比率強(qiáng)化——隔壁班的小愛刮目相看的SSR
對(duì)應(yīng)的就是仁烹,增加學(xué)習(xí)留存率耸弄,延長(zhǎng)學(xué)習(xí)時(shí)間,增加學(xué)習(xí)收益卓缰。
個(gè)人圖解視頻:
#固定比率強(qiáng)化——增加自己留存的思維論筆記
#固定時(shí)距強(qiáng)化——一篇圖解完成后计呈,就可以玩王者榮耀
#不固定比率強(qiáng)化——完成的圖解進(jìn)行分享,能讓更多人看到征唬,并點(diǎn)擊收藏的收益捌显。
3、調(diào)整反饋難度
斯坦福大學(xué)發(fā)表了一篇論文总寒,大意是玩家在高難度獲勝的那一刻扶歪,大腦多巴胺回路會(huì)異常激活,也就是說適當(dāng)?shù)母唠y度游戲摄闸,能最大化的激活反饋回路善镰。
這也是各大競(jìng)技類游戲排位賽機(jī)制的由來妹萨。通過匹配不同難度的對(duì)手,既不會(huì)讓你一直輸下去炫欺,也不會(huì)讓你永遠(yuǎn)贏乎完。而是塑造一種升段掉段的獎(jiǎng)勵(lì)機(jī)制,讓你的反饋回路一直處于半激活狀態(tài)品洛。
在學(xué)習(xí)中树姨,如何設(shè)置學(xué)習(xí)難度,需要根據(jù)個(gè)人情況制定毫别。
下一次考試提高1分和獲取班級(jí)第一娃弓,就是兩種難度。既不要太簡(jiǎn)單岛宦,也不要太難台丛。
一旦大腦形成正反饋回路,嘗過一次甜頭砾肺,食髓知味挽霉,那么你的動(dòng)力將會(huì)更加充足。久而久之变汪,甚至?xí)硎軐W(xué)習(xí)這件事情本身侠坎,像打王者榮耀一樣,石樂志一般地學(xué)習(xí)裙盾。
這就是學(xué)霸誕生規(guī)則实胸。