? ? ? ?本人現(xiàn)在某高校就讀研究生阳啥,今年研二添谊,加上保研那年的話,對(duì)NLP接觸的時(shí)間也有兩年半〔斐伲現(xiàn)在決定把前幾年做的一些關(guān)于NLP的工作匯總在這里斩狱,自己也做一個(gè)知識(shí)性的梳理吧耳高。之前雖然沒有寫博客的習(xí)慣,但會(huì)把一些相關(guān)的經(jīng)驗(yàn)和代碼記在云筆記上所踊,所以也算不上為了找工作臨時(shí)抱佛腳吧泌枪。文筆不咋樣,本人目前僅僅是研究生一枚秕岛,接下來(lái)的很多東西也許說(shuō)的不是很嚴(yán)謹(jǐn)碌燕,如果不小心被哪位技術(shù)大佬看到了,不要嫌棄有什么錯(cuò)誤請(qǐng)留言指正继薛。
????????于我而言修壕,NLP更像是一種知識(shí)體系,我大致接觸過(guò)語(yǔ)音遏考、知識(shí)圖譜和對(duì)話相關(guān)的一些項(xiàng)目慈鸠,有些也并不是很深入。但總的來(lái)說(shuō)NLP的任務(wù)大致可以分為幾個(gè)層面吧:
? ? 上圖是最近Google在embedding工作上的杰作——bert,這里主要借用這副圖來(lái)說(shuō)明下NLP的任務(wù)分類灌具,關(guān)于bert的部分青团,我后續(xù)會(huì)詳細(xì)說(shuō)明』鳎總的來(lái)說(shuō)NLP有:
? ? ? ? ? 1.word level:序列標(biāo)注任務(wù)(上圖d),分詞壶冒、詞性標(biāo)注缕题、命名實(shí)體識(shí)別都屬于序列標(biāo)注任務(wù)截歉,所謂序列標(biāo)注就是對(duì)一個(gè)序列的每個(gè)部分(可以是詞,可以是字)進(jìn)行分類烟零,上圖d就是一個(gè)實(shí)體識(shí)別任務(wù)(我們后續(xù)會(huì)詳細(xì)講到)瘪松,實(shí)際上我感覺語(yǔ)音識(shí)別如果是在幀層面上進(jìn)行音素分類的話,也可以作為一種序列標(biāo)注任務(wù)锨阿。
? ? ? ? ? ?2.sentence level :我認(rèn)為只要是在句子層面分類的任務(wù)都可以歸結(jié)為該類宵睦,如文本分類,情感識(shí)別墅诡,關(guān)系抽取壳嚎,語(yǔ)音情感識(shí)別等。在這里注意關(guān)系抽取是知識(shí)圖譜中將文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的一種方法末早,實(shí)際上它離不開實(shí)體和句子烟馅,最后的分類標(biāo)簽還是針對(duì)這三者而來(lái)的,所以我把它歸結(jié)到sentence level任務(wù)中然磷。
? ? ? ? ? ?3.sentence-sentence level:這一類問(wèn)題是NLP中最最常見郑趁,也是研究最廣泛的一類問(wèn)題,即序列和序列之間的分類姿搜,這種分類根據(jù)分類形式的不同又可以細(xì)分寡润。例如機(jī)器翻譯捆憎,問(wèn)答,對(duì)話都是sequence to sequence類型的問(wèn)題梭纹,而對(duì)于閱讀理解躲惰,smilarity等任務(wù)都是通過(guò)針對(duì)sentences pair進(jìn)行分類,拿閱讀理解上圖c,就是通過(guò)模型“理解”完Question和Paragraph后变抽,然后針對(duì)Paragraph礁扮,找出start和end的位置(即對(duì)這兩個(gè)token做分類)得到的start和end中間一段就是答案。再比如ai challenger2018中的觀點(diǎn)型閱讀理解就是上圖a中的例子瞬沦,針對(duì)的是sentences pair建模太伊,來(lái)分類。
????????給我的感覺是逛钻,學(xué)NLP并不要太局限在一個(gè)方向里僚焦,很多任務(wù)所運(yùn)用的到處理問(wèn)題的框架都是類似的,就好比不同的場(chǎng)景要搭建不同的建筑曙痘,但不同的建筑所用的材料都是想通的芳悲,知識(shí)因?yàn)閳?chǎng)景的不同會(huì)有所區(qū)別,之前說(shuō)到的知識(shí)體系就是這個(gè)意思边坤。當(dāng)然NLP的任務(wù)形式還有其他的一些內(nèi)容名扛,例如句法分析,語(yǔ)義角色標(biāo)注茧痒,知識(shí)圖譜中的知識(shí)表示模型等等又不是上述的一些形式肮韧,在這里由于這些內(nèi)容本人沒咋接觸,就不進(jìn)行說(shuō)明了旺订。
? ? ? ? 另外弄企,這里列幾個(gè)NLP相關(guān)的會(huì)議:
? ???????????????ACL? https://acl2017.wordpress.com/2017/04/05/accepted-papers-and-demonstrations/
?????????????????EMNLP
?????????????????COLING
?????????????????NAACL
? ? ? ? AI相關(guān):
? ? ? ? ? ? ? ? ? ?IJCAI
? ? ? ? ? ? ? ? ? ??AAAI
? ? ? ? 語(yǔ)音:
? ? ? ? ? ? ? ? ? ? Interspeech
? ? ? ? 下面的內(nèi)容我可能更多的關(guān)注在Deep Learning的方法上,除了情感識(shí)別的部分我會(huì)分享整個(gè)項(xiàng)目的實(shí)踐過(guò)程里面包含一些機(jī)器學(xué)習(xí)的代碼区拳,這段時(shí)間由于幫老師整理機(jī)器學(xué)習(xí)的課件拘领,所以之后關(guān)于機(jī)器學(xué)習(xí)的原理部分也會(huì)抽空做一個(gè)梳理。
既然是系列文章樱调,在這里還是要列個(gè)大綱:
(一) NLP個(gè)人技術(shù)實(shí)戰(zhàn)心得——開篇
(二)淺談?wù)Z言模型與詞向量
(三)分詞技術(shù)及開源分詞器
(四)序列標(biāo)注任務(wù)——命名實(shí)體識(shí)別
(五)結(jié)構(gòu)化數(shù)據(jù)抽取——關(guān)系抽取
(六)金融知識(shí)圖譜——基于中財(cái)網(wǎng)的圖譜搭建
(七)簡(jiǎn)單圖譜查詢——利用AIML進(jìn)行圖譜問(wèn)答
(八)sequence to sequence
(九)再談embedding——bert詳解
(十)語(yǔ)音情感識(shí)別項(xiàng)目實(shí)戰(zhàn)
先就列上面幾個(gè)吧约素,主要也是根據(jù)我這兩年讀研的過(guò)程中接觸到的一些項(xiàng)目來(lái)的。列完之后我自己也有點(diǎn)懵笆凌,看似不怎么系統(tǒng)圣猎,但實(shí)際上我自己感覺在算法原理這塊幾乎都是想通的,每個(gè)部分都會(huì)有原理講解以及我的github代碼鏈接菩颖,看到的朋友請(qǐng)留個(gè)星鼓勵(lì)下Q帷!