一個自然語言處理煉丹師的自白
往期:
前提的最后一部分劳坑,也是我最想提及的部分萍悴。之前的英文與數(shù)學(xué),可以算是比較通用的能力。即使是其他領(lǐng)域谨垃,也常用到启搂。而語言學(xué)這塊,卻是自然語言處理 (NLP) 特有的刘陶。畢竟 NLP 科學(xué)家胳赌,也被稱為 Computational Linguists (計算語言學(xué)家),作為語言學(xué)家總得懂點(diǎn)語言學(xué)吧匙隔。
用語言學(xué) or 不用語言學(xué)疑苫?
然而,隨著深度學(xué)習(xí)的興起和在 NLP 上的大規(guī)模應(yīng)用纷责。雖然取得很多成功捍掺,但卻也帶了當(dāng)前對語言學(xué)忽視的問題。利用序列模型再膳,往往“計算語言學(xué)家”都不需要了解任何語言學(xué)知識挺勿,直接端到端就能研究語言處理問題,對他們來說語言不過是一段字符串序列喂柒。
近來不瓶,也有很多學(xué)者對這個趨勢提出了強(qiáng)烈質(zhì)疑,比如之前 Yoav Goldberg 的博文灾杰。認(rèn)為現(xiàn)在很多論文蚊丐,特別是來自深度學(xué)習(xí)領(lǐng)域,可能什么語言學(xué)知識都不懂吭露,卻會寫出論文標(biāo)著已解決某 NLP 問題的吠撮。做為NLP的鐵桿粉,Yoav 當(dāng)然不能忍直接發(fā)文一陣懟讲竿。
看最近 NLP 頂會的論文泥兰,也會發(fā)現(xiàn)大家都開始意識到這個問題,并且對如何將語言學(xué)結(jié)構(gòu)用入 NLP 深度學(xué)習(xí)模型進(jìn)行了大量研究题禀。這可以看做是鞋诗,”語言學(xué)架構(gòu)的回歸“吧。關(guān)于這部分詳細(xì)內(nèi)容迈嘹,參考我之前的文章:《自然語言處理中的語言學(xué)》削彬。
對個人而言,非常贊同如果研究 NLP 而不單單是深度學(xué)習(xí)的話秀仲,了解語言學(xué)知識是必要的融痛。
- 首先,如人腦的視覺層次結(jié)構(gòu)能給卷積網(wǎng)絡(luò)(CNN)提供啟發(fā)神僵,語言學(xué)結(jié)構(gòu)也能給我們啟發(fā)雁刷,在單純的序列模型上提出更復(fù)雜而有效的模型。比如 Recursive Neural Network (遞歸神經(jīng)網(wǎng)絡(luò)) 就是基于語言是樹狀的假設(shè)保礼,而提出的模型沛励;
- 再來责语,進(jìn)來很多實(shí)驗(yàn)證明,語言學(xué)結(jié)構(gòu)確實(shí)是可以幫組提高模型性能目派。而且我也相信過去幾十年語言學(xué)研究沉淀下來的東西坤候,也必然是有用的。
- 最后企蹭,我并不認(rèn)為語言就只是單單的序列白筹,其實(shí)大家自己在腦袋思考一下就發(fā)現(xiàn)這是有違我們的直覺的。這意味著练对,要到達(dá)真正的理解語言的 AI遍蟋,那么可能語言學(xué)本身將是繞不過去的一道坎。
語言本能
語言是人類與其他動物最顯著的不同螟凭。人類直立行走虚青,動物中也不乏很多會直立行走;人類有性快感螺男,會不為繁衍后代做愛棒厘,這個你去看看可愛的海豚們,就會發(fā)現(xiàn)它們更“可愛”下隧。只有語言奢人,這一項(xiàng)仿佛是人類特有的技能,可以用它來交流淆院,用它創(chuàng)造歷史神話何乎,用它來進(jìn)行各種復(fù)雜的社會活動。
語言是人類的一種本能土辩,所以當(dāng)你問自己支救,我為什么會說話,為什么是這樣說拷淘,如果沒有語言我們怎么思考時各墨,往往有種想破腦袋也不明白的感覺。也正因如此启涯,才導(dǎo)致搞清語言背后原理變得如此有趣贬堵。從而進(jìn)一步希望利用計算機(jī),來模擬出一個相同的機(jī)器结洼,這便是 AI黎做。
因此對 NLP 感興趣的話,最好是先了解一下自然語言與我們?nèi)祟惖年P(guān)系松忍,這能激發(fā)出對問題本身探索的好奇引几。
這里推薦史蒂芬平克 (Steven Pinker) 的《語言本能 (Language Instinct)》。非常有趣的一本書挽铁,書中不光探討了各種人類語言中的現(xiàn)象伟桅,比如詞的形態(tài)和語言的樹狀結(jié)構(gòu),還花了很大篇幅探討語言與思想的關(guān)系叽掘,還有人類的語言的習(xí)得楣铁。
之前和隔壁的大佬東條教授喝酒聊天時,聽說此書在多年前曾是其實(shí)驗(yàn)室必讀書目之一更扁。
讀過這本書后盖腕,再看各個 NLP 書中提到的語言概念就會變得很熟悉了,因?yàn)槊靼琢诉@后面的原理了嘛浓镜。
其他
關(guān)于激起對語言的興趣溃列,上面那本語言本能足矣。關(guān)于語言的科普書還有很多膛薛,比如《The Unfolding of Language》還有《Empires of the Word》听隐,感興趣可以當(dāng)課外書讀。
如果更直接關(guān)心語言學(xué)在 NLP 研究的應(yīng)用哄啄,把 《Linguistic Fundamentals for Natural Language Processing》掃一遍就行了雅任。
到此,啰嗦的前提部分便告一段落咨跌。