姓名:閆偉? 學(xué)號(hào):15020150038
轉(zhuǎn)載自:微軟亞洲研究院官方知乎知乎,有刪節(jié)。
【嵌牛導(dǎo)讀】:自然語(yǔ)言處理(簡(jiǎn)稱NLP)境蔼,是研究計(jì)算機(jī)處理人類(lèi)語(yǔ)言的一門(mén)技術(shù)
【嵌牛鼻子】:自然語(yǔ)言處理
【嵌牛提問(wèn)】:自然語(yǔ)言處理怎么最快入門(mén)?
【嵌牛正文】:
自然語(yǔ)言處理(簡(jiǎn)稱NLP)绣张,是研究計(jì)算機(jī)處理人類(lèi)語(yǔ)言的一門(mén)技術(shù)幻碱,包括:
1.句法語(yǔ)義分析:對(duì)于給定的句子绎狭,進(jìn)行分詞、詞性標(biāo)記褥傍、命名實(shí)體識(shí)別和鏈接儡嘶、句法分析、語(yǔ)義角色識(shí)別和多義詞消歧恍风。
2.信息抽取:從給定文本中抽取重要的信息蹦狂,比如,時(shí)間朋贬、地點(diǎn)凯楔、人物、事件锦募、原因摆屯、結(jié)果、數(shù)字糠亩、日期虐骑、貨幣、專有名詞等等赎线。通俗說(shuō)來(lái)廷没,就是要了解誰(shuí)在什么時(shí)候、什么原因垂寥、對(duì)誰(shuí)腕柜、做了什么事、有什么結(jié)果矫废。涉及到實(shí)體識(shí)別盏缤、時(shí)間抽取、因果關(guān)系抽取等關(guān)鍵技術(shù)蓖扑。
3.文本挖掘(或者文本數(shù)據(jù)挖掘):包括文本聚類(lèi)唉铜、分類(lèi)、信息抽取律杠、摘要潭流、情感分析以及對(duì)挖掘的信息和知識(shí)的可視化、交互式的表達(dá)界面柜去。目前主流的技術(shù)都是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的灰嫉。
4.機(jī)器翻譯:把輸入的源語(yǔ)言文本通過(guò)自動(dòng)翻譯獲得另外一種語(yǔ)言的文本。根據(jù)輸入媒介不同嗓奢,可以細(xì)分為文本翻譯讼撒、語(yǔ)音翻譯、手語(yǔ)翻譯、圖形翻譯等根盒。機(jī)器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計(jì)的方法钳幅,再到今天的基于神經(jīng)網(wǎng)絡(luò)(編碼-解碼)的方法,逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系炎滞。
5.信息檢索:對(duì)大規(guī)模的文檔進(jìn)行索引敢艰。可簡(jiǎn)單對(duì)文檔中的詞匯册赛,賦之以不同的權(quán)重來(lái)建立索引钠导,也可利用1,2森瘪,3的技術(shù)來(lái)建立更加深層的索引辈双。在查詢的時(shí)候,對(duì)輸入的查詢表達(dá)式比如一個(gè)檢索詞或者一個(gè)句子進(jìn)行分析柜砾,然后在索引里面查找匹配的候選文檔湃望,再根據(jù)一個(gè)排序機(jī)制把候選文檔排序,最后輸出排序得分最高的文檔痰驱。
6.問(wèn)答系統(tǒng): 對(duì)一個(gè)自然語(yǔ)言表達(dá)的問(wèn)題证芭,由問(wèn)答系統(tǒng)給出一個(gè)精準(zhǔn)的答案。需要對(duì)自然語(yǔ)言查詢語(yǔ)句進(jìn)行某種程度的語(yǔ)義分析担映,包括實(shí)體鏈接废士、關(guān)系識(shí)別,形成邏輯表達(dá)式蝇完,然后到知識(shí)庫(kù)中查找可能的候選答案并通過(guò)一個(gè)排序機(jī)制找出最佳的答案官硝。
7.對(duì)話系統(tǒng):系統(tǒng)通過(guò)一系列的對(duì)話,跟用戶進(jìn)行聊天短蜕、回答氢架、完成某一項(xiàng)任務(wù)。涉及到用戶意圖理解朋魔、通用聊天引擎岖研、問(wèn)答引擎、對(duì)話管理等技術(shù)警检。此外孙援,為了體現(xiàn)上下文相關(guān),要具備多輪對(duì)話能力扇雕。同時(shí)拓售,為了體現(xiàn)個(gè)性化,要開(kāi)發(fā)用戶畫(huà)像以及基于用戶畫(huà)像的個(gè)性化回復(fù)镶奉。
隨著深度學(xué)習(xí)在圖像識(shí)別础淤、語(yǔ)音識(shí)別領(lǐng)域的大放異彩崭放,人們對(duì)深度學(xué)習(xí)在NLP的價(jià)值也寄予厚望。再加上AlphaGo的成功值骇,人工智能的研究和應(yīng)用變得炙手可熱莹菱。自然語(yǔ)言處理作為人工智能領(lǐng)域的認(rèn)知智能移国,成為目前大家關(guān)注的焦點(diǎn)吱瘩。很多研究生都在進(jìn)入自然語(yǔ)言領(lǐng)域,寄望未來(lái)在人工智能方向大展身手迹缀。但是使碾,大家常常遇到一些問(wèn)題。俗話說(shuō)祝懂,萬(wàn)事開(kāi)頭難票摇。如果第一件事情成功了,學(xué)生就能建立信心砚蓬,找到竅門(mén)矢门,今后越做越好。否則灰蛙,也可能就灰心喪氣祟剔,甚至離開(kāi)這個(gè)領(lǐng)域。這里針對(duì)給出我個(gè)人的建議摩梧,希望我的這些粗淺觀點(diǎn)能夠引起大家更深層次的討論物延。
建議1:如何在NLP領(lǐng)域快速學(xué)會(huì)第一個(gè)技能?
我的建議是:找到一個(gè)開(kāi)源項(xiàng)目仅父,比如機(jī)器翻譯或者深度學(xué)習(xí)的項(xiàng)目叛薯。理解開(kāi)源項(xiàng)目的任務(wù),編譯通過(guò)該項(xiàng)目發(fā)布的示范程序笙纤,得到與項(xiàng)目示范程序一致的結(jié)果耗溜。然后再深入理解開(kāi)源項(xiàng)目示范程序的算法。自己編程實(shí)現(xiàn)一下這個(gè)示范程序的算法省容。再按照項(xiàng)目提供的標(biāo)準(zhǔn)測(cè)試集測(cè)試自己實(shí)現(xiàn)的程序强霎。如果輸出的結(jié)果與項(xiàng)目中出現(xiàn)的結(jié)果不一致,就要仔細(xì)查驗(yàn)自己的程序蓉冈,反復(fù)修改城舞,直到結(jié)果與示范程序基本一致。如果還是不行寞酿,就大膽給項(xiàng)目的作者寫(xiě)信請(qǐng)教家夺。在此基礎(chǔ)上,再看看自己能否進(jìn)一步完善算法或者實(shí)現(xiàn)伐弹,取得比示范程序更好的結(jié)果拉馋。
建議2:如何選擇第一個(gè)好題目?
工程型研究生,選題很多都是老師給定的煌茴。需要采取比較實(shí)用的方法随闺,扎扎實(shí)實(shí)地動(dòng)手實(shí)現(xiàn)÷可能不需要多少理論創(chuàng)新矩乐,但是需要較強(qiáng)的實(shí)現(xiàn)能力和綜合創(chuàng)新能力。而學(xué)術(shù)型研究生需要取得一流的研究成果回论,因此選題需要有一定的創(chuàng)新散罕。我這里給出如下的幾點(diǎn)建議。
先找到自己喜歡的研究領(lǐng)域傀蓉。你找到一本最近的ACL會(huì)議論文集, 從中找到一個(gè)你比較喜歡的領(lǐng)域欧漱。在選題的時(shí)候,多注意選擇藍(lán)海的領(lǐng)域葬燎。這是因?yàn)樗{(lán)海的領(lǐng)域褂乍,相對(duì)比較新劳较,容易出成果屎债。
充分調(diào)研這個(gè)領(lǐng)域目前的發(fā)展?fàn)顩r担猛。包括如下幾個(gè)方面的調(diào)研:方法方面,是否有一套比較清晰的數(shù)學(xué)體系和機(jī)器學(xué)習(xí)體系岳遥;數(shù)據(jù)方面奕翔,有沒(méi)有一個(gè)大家公認(rèn)的標(biāo)準(zhǔn)訓(xùn)練集和測(cè)試集;研究團(tuán)隊(duì)浩蓉,是否有著名團(tuán)隊(duì)和人士參加派继。如果以上幾個(gè)方面的調(diào)研結(jié)論不是太清晰,作為初學(xué)者可能不要輕易進(jìn)入捻艳。
在確認(rèn)進(jìn)入一個(gè)領(lǐng)域之后驾窟,按照建議一所述,需要找到本領(lǐng)域的開(kāi)源項(xiàng)目或者工具认轨,仔細(xì)研究一遍現(xiàn)有的主要流派和方法绅络,先入門(mén)。
反復(fù)閱讀本領(lǐng)域最新發(fā)表的文章嘁字,多閱讀本領(lǐng)域牛人發(fā)表的文章恩急。在深入了解已有工作的基礎(chǔ)上,探討還有沒(méi)有一些地方可以推翻纪蜒、改進(jìn)衷恭、綜合、遷移纯续。注意做實(shí)驗(yàn)的時(shí)候随珠,不要貪多灭袁,每次實(shí)驗(yàn)只需要驗(yàn)證一個(gè)想法。每次實(shí)驗(yàn)之后窗看,必須要進(jìn)行分析存在的錯(cuò)誤茸歧,找出原因。
對(duì)成功的實(shí)驗(yàn)显沈,進(jìn)一步探討如何改進(jìn)算法软瞎。注意實(shí)驗(yàn)數(shù)據(jù)必須是業(yè)界公認(rèn)的數(shù)據(jù)。
與已有的算法進(jìn)行比較构罗,體會(huì)能夠得出比較一般性的結(jié)論铜涉。如果有智玻,則去寫(xiě)一篇文章遂唧,否則,應(yīng)該換一個(gè)新的選題吊奢。
建議3:如何寫(xiě)出第一篇論文盖彭?
接上一個(gè)問(wèn)題,如果想法不錯(cuò)页滚,且被實(shí)驗(yàn)所證明召边,就可開(kāi)始寫(xiě)第一篇論文了。
確定論文的題目裹驰。在定題目的時(shí)候隧熙,一般不要“…系統(tǒng)”、“…研究與實(shí)踐”幻林,要避免太長(zhǎng)的題目贞盯,因?yàn)椴缓皿w現(xiàn)要點(diǎn)。題目要具體沪饺,有深度躏敢,突出算法。
寫(xiě)論文摘要整葡。要突出本文針對(duì)什么重要問(wèn)題件余,提出了什么方法,跟已有工作相比遭居,具有什么優(yōu)勢(shì)啼器。實(shí)驗(yàn)結(jié)果表明,達(dá)到了什么水準(zhǔn)俱萍,解決了什么問(wèn)題端壳。
寫(xiě)引言。首先講出本項(xiàng)工作的背景鼠次,這個(gè)問(wèn)題的定義更哄,它具有什么重要性芋齿。然后介紹對(duì)這個(gè)問(wèn)題,現(xiàn)有的方法是什么成翩,有什么優(yōu)點(diǎn)觅捆。但是(注意但是)現(xiàn)有的方法仍然有很多缺陷或者挑戰(zhàn)。比如(注意比如)麻敌,有什么問(wèn)題栅炒。本文針對(duì)這個(gè)問(wèn)題,受什么方法(誰(shuí)的工作)之啟發(fā)术羔,提出了什么新的方法并做了如下幾個(gè)方面的研究赢赊。然后對(duì)每個(gè)方面分門(mén)別類(lèi)加以敘述,最后說(shuō)明實(shí)驗(yàn)的結(jié)論级历。再說(shuō)本文有幾條貢獻(xiàn)释移,一般寫(xiě)三條足矣。然后說(shuō)說(shuō)文章的章節(jié)組織寥殖,以及本文的重點(diǎn)玩讳。有的時(shí)候東西太多,篇幅有限嚼贡,只能介紹最重要的部分熏纯,不需要面面俱到。
相關(guān)工作粤策。對(duì)相關(guān)工作做一個(gè)梳理樟澜,按照流派劃分,對(duì)主要的最多三個(gè)流派做一個(gè)簡(jiǎn)單介紹叮盘。介紹其原理秩贰,然后說(shuō)明其局限性。
然后可設(shè)立兩個(gè)章節(jié)介紹自己的工作熊户。第一個(gè)章節(jié)是算法描述萍膛。包括問(wèn)題定義,數(shù)學(xué)符號(hào)嚷堡,算法描述蝗罗。文章的主要公式基本都在這里。有時(shí)候要給出簡(jiǎn)明的推導(dǎo)過(guò)程蝌戒。如果借鑒了別人的理論和算法串塑,要給出清晰的引文信息。在此基礎(chǔ)上北苟,由于一般是基于機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方法桩匪,要介紹你的模型訓(xùn)練方法和解碼方法。第二章就是實(shí)驗(yàn)環(huán)節(jié)友鼻。一般要給出實(shí)驗(yàn)的目的傻昙,要檢驗(yàn)什么闺骚,實(shí)驗(yàn)的方法,數(shù)據(jù)從哪里來(lái)妆档,多大規(guī)模僻爽。最好數(shù)據(jù)是用公開(kāi)評(píng)測(cè)數(shù)據(jù),便于別人重復(fù)你的工作贾惦。然后對(duì)每個(gè)實(shí)驗(yàn)給出所需的技術(shù)參數(shù)胸梆,并報(bào)告實(shí)驗(yàn)結(jié)果。同時(shí)為了與已有工作比較须板,需要引用已有工作的結(jié)果碰镜,必要的時(shí)候需要重現(xiàn)重要的工作并報(bào)告結(jié)果。用實(shí)驗(yàn)數(shù)據(jù)說(shuō)話习瑰,說(shuō)明你比人家的方法要好绪颖。要對(duì)實(shí)驗(yàn)結(jié)果好好分析你的工作與別人的工作的不同及各自利弊,并說(shuō)明其原因杰刽。對(duì)于目前尚不太好的地方菠发,要分析問(wèn)題之所在王滤,并將其列為未來(lái)的工作贺嫂。
結(jié)論。對(duì)本文的貢獻(xiàn)再一次總結(jié)雁乡。既要從理論第喳、方法上加以總結(jié)和提煉,也要說(shuō)明在實(shí)驗(yàn)上的貢獻(xiàn)和結(jié)論踱稍。所做的結(jié)論曲饱,要讓讀者感到信服,同時(shí)指出未來(lái)的研究方向珠月。
參考文獻(xiàn)扩淀。給出所有重要相關(guān)工作的論文。記住啤挎,漏掉了一篇重要的參考文獻(xiàn)(或者牛人的工作)驻谆,基本上就沒(méi)有被錄取的希望了。
寫(xiě)完第一稿庆聘,然后就是再改三遍胜臊。
把文章交給同一個(gè)項(xiàng)目組的人士,請(qǐng)他們從算法新穎度伙判、創(chuàng)新性和實(shí)驗(yàn)規(guī)模和結(jié)論方面象对,以挑剔的眼光,審核你的文章宴抚。自己針對(duì)薄弱環(huán)節(jié)勒魔,進(jìn)一步改進(jìn)甫煞,重點(diǎn)加強(qiáng)算法深度和工作創(chuàng)新性。
然后請(qǐng)不同項(xiàng)目組的人士審閱冠绢。如果他們看不明白危虱,說(shuō)明文章的可讀性不夠。你需要修改篇章結(jié)構(gòu)唐全、進(jìn)行文字潤(rùn)色埃跷,增加文章可讀性。
如投ACL等國(guó)際會(huì)議邮利,最好再請(qǐng)英文專業(yè)或者母語(yǔ)人士提煉文字弥雹。