【心理學(xué)與AI】終身學(xué)習(xí)和連續(xù)學(xué)習(xí)綜述

Parisi, G. I., Kemker, R., Part, J. L., Kanan, C., & Wermter, S. (2019). Continual lifelong learning with neural networks: A review. Neural Networks, 113, 54-71.

因?yàn)槲覀兘M之前關(guān)注的問(wèn)題就是待榔,在學(xué)習(xí)中新知識(shí)和舊知識(shí)產(chǎn)生沖突的時(shí)候粪小,人的記憶系統(tǒng)是如何處理的。這個(gè)問(wèn)題人工智能也是關(guān)心的,而且這個(gè)問(wèn)題最近還很熱,我找到了19年的一篇綜述及舍,這個(gè)研究主題叫做lifelong learning/continuous learning哆档。

這個(gè)問(wèn)題對(duì)AI的人來(lái)說(shuō)主要是這樣的:神經(jīng)網(wǎng)絡(luò)的訓(xùn)練往往是一次性的(concurrent training)砌左,也就是說(shuō)訓(xùn)練個(gè)幾天之后拉背,測(cè)試它的性能师崎,然后直接拿來(lái)使用。但是有很多場(chǎng)景(比如家用機(jī)器人)椅棺,我們是希望神經(jīng)網(wǎng)絡(luò)具有人一樣犁罩,不斷學(xué)習(xí)的能力的。

為什么神經(jīng)網(wǎng)絡(luò)做不到不斷學(xué)習(xí)呢两疚,最主要的一個(gè)bug就叫做catastrophic forgetting災(zāi)難性遺忘床估。就是在訓(xùn)練好task A的網(wǎng)絡(luò)上喂新的數(shù)據(jù)訓(xùn)練task B的話,task B學(xué)會(huì)了之后網(wǎng)絡(luò)上的權(quán)值變化很大诱渤,以至于破壞了taskA需要的映射關(guān)系顷窒,導(dǎo)致task A做不了了。

要改善這個(gè)問(wèn)題源哩,神經(jīng)科學(xué)家提出了一些人的記憶系統(tǒng)中可以借鑒的機(jī)制,計(jì)算機(jī)科學(xué)家也提出了一些改進(jìn)的算法鸦做。這個(gè)綜述還是neural networks 這本雜志的熱門綜述励烦,19年發(fā)的引用量就快200了。這些解決方案很有意思泼诱,相信大家看了這篇文章會(huì)有所啟發(fā)的坛掠。

問(wèn)題背景

The Stability-Plasticity Dilemma

人類能夠很好地記憶不同的知識(shí)/能力,盡管不斷有外部的知識(shí)治筒,信息進(jìn)到大腦中屉栓,但是很多已經(jīng)鞏固了的知識(shí)人類是不會(huì)忘記的或者說(shuō)很少有影響。這就依靠著大腦的穩(wěn)定-可變平衡的調(diào)整耸袜。 所以這在有關(guān)記憶的神經(jīng)科學(xué)研究中是非常重要的一個(gè)課題友多。人腦神經(jīng)突觸的可變性在不同的區(qū)域,不同的結(jié)構(gòu)堤框,不同的記憶階段域滥,在人不同的成長(zhǎng)階段呈現(xiàn)出不同的特征。

Hebbian Plasticity and Stability

Hebbian模型是最著名的用于解釋神經(jīng)突觸可變性的模型蜈抓,他的核心觀點(diǎn)是启绰,來(lái)自后突觸細(xì)胞的穩(wěn)定刺激能夠以一定比例強(qiáng)化前突觸細(xì)胞,Δw = x·y·η沟使。因?yàn)楸旧泶嬖诓环€(wěn)定性委可,所以需要一定的補(bǔ)償方法來(lái)穩(wěn)定強(qiáng)化學(xué)習(xí)過(guò)程。同時(shí)腊嗡,可變性自我平衡的實(shí)現(xiàn)需要一個(gè)來(lái)自觀察的調(diào)和反饋着倾,因此拾酝,方程可以被改寫為Δw = m·x·y·η。同時(shí)也有非常多的模型能夠解釋神經(jīng)網(wǎng)絡(luò)的自我組織過(guò)程

The Complementary Learning Systems

人腦需要特定的方法來(lái)記憶儲(chǔ)存長(zhǎng)時(shí)記憶和短時(shí)記憶屈呕,人腦的不同區(qū)域會(huì)有出不同的短時(shí)記憶效果微宝,比如海馬體。海馬體能夠承擔(dān)短時(shí)記憶的任務(wù)虎眨,它能以更快的速度以及更小的損耗進(jìn)行學(xué)習(xí)蟋软。同時(shí),研究者對(duì)不同成長(zhǎng)階段的人的海馬體的發(fā)育嗽桩、結(jié)構(gòu)模式有著不同的看法岳守。

Learning without Forgetting

同時(shí)也有一些區(qū)域負(fù)責(zé)長(zhǎng)時(shí)記憶,比如PFC碌冶,PFC能夠儲(chǔ)存長(zhǎng)時(shí)記憶湿痢。同時(shí)也有研究發(fā)現(xiàn)特定場(chǎng)景能夠讓人們失憶。比如在嬰兒的學(xué)習(xí)中加入干擾能夠影響嬰兒的記憶效果扑庞。同樣將3-8歲的兒童脫離母語(yǔ)環(huán)境并且放到不同的語(yǔ)言環(huán)境中譬重,這會(huì)影響他們關(guān)于母語(yǔ)的記憶。所以如果要進(jìn)行長(zhǎng)時(shí)記憶我們就應(yīng)該想辦法保護(hù)這些記憶罐氨。

目前的算法

正則化的方法

這個(gè)方法的本質(zhì)就是臀规,神經(jīng)網(wǎng)絡(luò)中的參數(shù)有那么多,當(dāng)我學(xué)習(xí)task B的時(shí)候栅隐,并不需要徹底地改變整個(gè)網(wǎng)絡(luò)我才能學(xué)塔嬉,可以保留一些原網(wǎng)絡(luò)的參數(shù),使得taskA的績(jī)效不要下降得太多租悄。但是可以想象谨究,這樣做的結(jié)果必然讓A和B的訓(xùn)練效果都有損失,而不同的算法就在探索如何讓這種損失減小泣棋。對(duì)于人來(lái)說(shuō)胶哲,這個(gè)就是在學(xué)習(xí)新任務(wù)的時(shí)候,老任務(wù)的記憶會(huì)干擾新任務(wù)的學(xué)習(xí)潭辈,新任務(wù)也會(huì)一定程度地修改老任務(wù)的記憶纪吮,彼此之間是一個(gè)抗衡的過(guò)程,也就是之前說(shuō)到的stability-plasticity dilemma萎胰。

動(dòng)態(tài)改變網(wǎng)絡(luò)結(jié)構(gòu)

在人的學(xué)習(xí)中發(fā)現(xiàn)碾盟,新記憶的產(chǎn)生也會(huì)帶來(lái)神經(jīng)元的結(jié)構(gòu)變化(例如突觸的增加),產(chǎn)生新的記憶載體有可能是一種可行的方式技竟,來(lái)減少和老記憶的沖突冰肴。所以第二類方法呢,就是在學(xué)習(xí)taskB的時(shí)候,改變網(wǎng)絡(luò)的結(jié)構(gòu)(比如增加神經(jīng)元熙尉、構(gòu)建新的層)联逻,盡可能多的只改變新結(jié)構(gòu)中的參數(shù),而更多地可以保護(hù)taskA訓(xùn)練得到的老參數(shù)检痰。這個(gè)的問(wèn)題就在于包归,對(duì)于每一個(gè)新任務(wù)我都要增加結(jié)構(gòu),那當(dāng)任務(wù)大量擴(kuò)增的時(shí)候铅歼,我的網(wǎng)絡(luò)也會(huì)變得特別復(fù)雜公壤,帶來(lái)計(jì)算量的急劇增加,效率降低椎椰。

構(gòu)建兩個(gè)分離的系統(tǒng)

大家在導(dǎo)言里看了CLS厦幅,主要是說(shuō)人的記憶系統(tǒng)分為一個(gè)長(zhǎng)時(shí)一個(gè)短時(shí),也就是說(shuō)慨飘,并不是所有的新數(shù)據(jù)過(guò)來(lái)(短時(shí)記憶)确憨,我都無(wú)差異地整合到我的網(wǎng)絡(luò)(長(zhǎng)時(shí)記憶)中去,而是需要一些條件(例如數(shù)據(jù)出現(xiàn)的頻率瓤的,和之前數(shù)據(jù)的相似度)休弃。這類算法是受這個(gè)系統(tǒng)啟發(fā),把新的數(shù)據(jù)暫時(shí)以case的形式存儲(chǔ)起來(lái)圈膏,然后在達(dá)到必要條件的時(shí)候整合到網(wǎng)絡(luò)中去塔猾。帶來(lái)的問(wèn)題各種各樣,例如臨時(shí)的存儲(chǔ)容量很小本辐,如果都不符合整合得條件,就會(huì)都丟失医增。

更復(fù)雜的生態(tài)設(shè)計(jì)

這個(gè)主要是針對(duì)多任務(wù)的機(jī)器人的慎皱,這些算法是從人類發(fā)展受到啟發(fā),認(rèn)為網(wǎng)絡(luò)結(jié)構(gòu)也是隨著學(xué)習(xí)不斷進(jìn)化和拓展的叶骨。另外茫多,人類學(xué)習(xí)的注意、動(dòng)機(jī)因素也被考慮進(jìn)來(lái)忽刽,這樣對(duì)于樣本數(shù)據(jù)就可以差異化得加工天揖。但是這類算法顯然對(duì)人類的模擬還太粗糙了,對(duì)于結(jié)構(gòu)的定義也很暴力跪帝,達(dá)到的效果并不理想今膊。

詳細(xì)算法

抽了一些感興趣的分給大家做精讀,筆記整理如下

Li, M., Zhang, T., Chen, Y., & Smola, A. J. (2014, August). Efficient mini-batch training for stochastic optimization. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 661-670).

Mini-batch stochastic learning是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一種方法優(yōu)化伞剑,也就是現(xiàn)在主流的方法斑唬,即每一次訓(xùn)練在訓(xùn)練集里隨機(jī)抽取一些數(shù)據(jù)來(lái)訓(xùn)練,就是和大家之前看的interleave是對(duì)應(yīng)的。這是提出這個(gè)方法的文章(大佬+巨佬的文章)恕刘,重點(diǎn)看作者認(rèn)為這個(gè)方法為什么有用。可能需要看一些數(shù)學(xué)的東西拴孤,筆記盡可能突出核心思想豆挽,可以借助其他網(wǎng)絡(luò)資料。
閱讀筆記-Zhu Bihan

Zhou, G., Sohn, K., & Lee, H. (2012, March). Online incremental feature learning with denoising autoencoders. In Artificial intelligence and statistics (pp. 1453-1461).

動(dòng)態(tài)網(wǎng)絡(luò)結(jié)構(gòu)的方法含蓉。整合多余的特征频敛。Adds neurons for samples with high loss and subsequently merges these neurons with existing ones to prevent redundancy。9p

Xiao, T., Zhang, J., Yang, K., Peng, Y., & Zhang, Z. (2014, November). Error-driven incremental learning in deep convolutional neural network for large-scale image classification. In Proceedings of the 22nd ACM international conference on Multimedia (pp. 177-186).

動(dòng)態(tài)網(wǎng)絡(luò)結(jié)構(gòu)的方法谴餐。動(dòng)態(tài)形成層級(jí)結(jié)構(gòu)姻政。Classes are grouped according to their similarity and self-organized into multiple levels, with models inheriting features from existing ones to speed up the learning。
閱讀筆記-Tang Wenwen

Yoon, J., Yang, E., Lee, J., & Hwang, S. J. (2017). Lifelong learning with dynamically expandable networks. arXiv preprint arXiv:1708.01547.

動(dòng)態(tài)網(wǎng)絡(luò)結(jié)構(gòu)的方法岂嗓。添加了隨機(jī)記憶replay的方法來(lái)減少遺忘汁展,監(jiān)督學(xué)習(xí)。selective retraining which expands the network capacity using group sparse regularization to decide how many neurons to add at each layer厌殉。https://zhuanlan.zhihu.com/p/87775025 有個(gè)知乎的閱讀筆記可以參考食绿。10p
閱讀筆記-Wang Haimin

Draelos, T. J., Miner, N. E., Lamb, C. C., Cox, J. A., Vineyard, C. M., Carlson, K. D., ... & Aimone, J. B. (2017, May). Neurogenesis deep learning: Extending deep networks to accommodate new classes. In 2017 International Joint Conference on Neural Networks (IJCNN) (pp. 526-533). IEEE.

動(dòng)態(tài)網(wǎng)絡(luò)結(jié)構(gòu)的方法。添加了隨機(jī)記憶replay的方法來(lái)減少遺忘公罕。it uses intrinsic replay (a generative model used for pseudo-rehearsal) to preserve the weights required to retain older information器紧。8p.

Rebuffi, S. A., Kolesnikov, A., Sperl, G., & Lampert, C. H. (2017). icarl: Incremental classifier and representation learning. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 2001-2010).

動(dòng)態(tài)網(wǎng)絡(luò)結(jié)構(gòu)的方法。用rehearsal的方法來(lái)動(dòng)態(tài)調(diào)整卷積層的特征提取器楼眷,以免受到固定數(shù)據(jù)集的bias影響铲汪。storing example data points that are used along with new data to dynamically adapt the weights of the feature extractor。
閱讀筆記-Zhu Bihan

Parisi, G. I., Tani, J., Weber, C., & Wermter, S. (2017). Lifelong learning of human actions with deep neural network self-organization. Neural Networks, 96, 137-149.

動(dòng)態(tài)網(wǎng)絡(luò)結(jié)構(gòu)的方法罐柳。這篇借鑒人的記憶系統(tǒng)比較多掌腰,甚至模擬了神經(jīng)元的衰退,但是數(shù)學(xué)公式多一些张吉。lifelong learning of human action sequences can be achieved in terms of prediction-driven neural dynamics with internal representations emerging in a hierarchy of recurrent self-organizing networks齿梁。12p

Shin, H., Lee, J. K., Kim, J., & Kim, J. (2017). Continual learning with deep generative replay. In Advances in Neural Information Processing Systems (pp. 2990-2999).

CLS長(zhǎng)短時(shí)記憶系統(tǒng)的方法。隨機(jī)記憶(偽)重放的方法肮蛹,不是存example而且生成記憶重放勺择,可以看看是怎么模仿人的重放系統(tǒng)的。training data from previously learned tasks can be sampled in terms of generated pseudo-data and interleaved with information from the new tasks伦忠。10p
閱讀筆記-Lin Beibei

Lopez-Paz, D., & Ranzato, M. A. (2017). Gradient episodic memory for continual learning. In Advances in Neural Information Processing Systems (pp. 6467-6476).

CLS長(zhǎng)短時(shí)記憶系統(tǒng)的方法省核。存儲(chǔ)的是學(xué)習(xí)樣本中的一部分,可以看看根據(jù)什么標(biāo)準(zhǔn)來(lái)選取哪些樣本被存下來(lái)昆码。存在哪些問(wèn)題芳撒?episodic memory used to store a subset of the observed examples from a given task邓深。7p
閱讀筆記-Ye Yizhou

Vinyals, O., Blundell, C., Lillicrap, T., & Wierstra, D. (2016). Matching networks for one shot learning. In Advances in neural information processing systems (pp. 3630-3638).

遷移學(xué)習(xí)。One-shot learning笔刹,就是在原來(lái)的數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)芥备,經(jīng)過(guò)一次訓(xùn)練(一個(gè)配對(duì)數(shù)據(jù))就可以遷移到新數(shù)據(jù)集上。最新的爆款算法舌菜。雖然這個(gè)沒(méi)有防止之前的記憶被遺忘的功能萌壳,但是可以看做是動(dòng)態(tài)結(jié)構(gòu)的一種拓展。performing well on novel tasks but do not prevent catastrophic forgetting on previously learned tasks. 9p

Pathak, D., Agrawal, P., Efros, A. A., & Darrell, T. (2017). Curiosity-driven exploration by self-supervised prediction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (pp. 16-17).

內(nèi)部激勵(lì)的探索學(xué)習(xí)日月。這篇很短袱瓮,需要自己再找一篇后續(xù),關(guān)注一下后面對(duì)這個(gè)算法的改進(jìn)爱咬,尤其是當(dāng)沒(méi)有interaction存在的時(shí)候尺借。using the knowledge acquired from previous experiences for the faster exploration of unseen scenarios。2p

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末精拟,一起剝皮案震驚了整個(gè)濱河市燎斩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蜂绎,老刑警劉巖栅表,帶你破解...
    沈念sama閱讀 212,222評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異师枣,居然都是意外死亡怪瓶,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,455評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門践美,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)洗贰,“玉大人,你說(shuō)我怎么就攤上這事陨倡×沧蹋” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,720評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵玫膀,是天一觀的道長(zhǎng)矛缨。 經(jīng)常有香客問(wèn)我爹脾,道長(zhǎng)帖旨,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,568評(píng)論 1 284
  • 正文 為了忘掉前任灵妨,我火速辦了婚禮解阅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘泌霍。我一直安慰自己货抄,他們只是感情好述召,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,696評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著蟹地,像睡著了一般积暖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上怪与,一...
    開(kāi)封第一講書(shū)人閱讀 49,879評(píng)論 1 290
  • 那天夺刑,我揣著相機(jī)與錄音,去河邊找鬼分别。 笑死遍愿,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的耘斩。 我是一名探鬼主播沼填,決...
    沈念sama閱讀 39,028評(píng)論 3 409
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼括授!你這毒婦竟也來(lái)了坞笙?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,773評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤刽脖,失蹤者是張志新(化名)和其女友劉穎羞海,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體曲管,經(jīng)...
    沈念sama閱讀 44,220評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡却邓,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,550評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了院水。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腊徙。...
    茶點(diǎn)故事閱讀 38,697評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖檬某,靈堂內(nèi)的尸體忽然破棺而出撬腾,到底是詐尸還是另有隱情,我是刑警寧澤恢恼,帶...
    沈念sama閱讀 34,360評(píng)論 4 332
  • 正文 年R本政府宣布民傻,位于F島的核電站,受9級(jí)特大地震影響场斑,放射性物質(zhì)發(fā)生泄漏漓踢。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,002評(píng)論 3 315
  • 文/蒙蒙 一漏隐、第九天 我趴在偏房一處隱蔽的房頂上張望喧半。 院中可真熱鬧,春花似錦青责、人聲如沸挺据。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,782評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)扁耐。三九已至暇检,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間婉称,已是汗流浹背占哟。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,010評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留酿矢,地道東北人榨乎。 一個(gè)月前我還...
    沈念sama閱讀 46,433評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像瘫筐,于是被迫代替她去往敵國(guó)和親蜜暑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,587評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容