1. 什么是NLP
自然語(yǔ)言處理 (Natural Language Processing) 是人工智能(AI)的一個(gè)子領(lǐng)域坎怪。自然語(yǔ)言處理是研究在人與人交互中以及在人與計(jì)算機(jī)交互中的語(yǔ)言問(wèn)題的一門(mén)學(xué)科敦迄。為了建設(shè)和完善語(yǔ)言模型斧散,自然語(yǔ)言處理建立計(jì)算框架玻驻,提出相應(yīng)的方法來(lái)不斷的完善設(shè)計(jì)各種實(shí)用系統(tǒng)悼凑,并探討這些實(shí)用系統(tǒng)的評(píng)測(cè)方法。
2. NLP主要研究方向
- 信息抽取:從給定文本中抽取重要的信息,比如時(shí)間户辫、地點(diǎn)益老、人物、事件寸莫、原因、結(jié)果档冬、數(shù)字膘茎、日期、貨幣酷誓、專(zhuān)有名詞等等披坏。通俗說(shuō)來(lái),就是要了解誰(shuí)在什么時(shí)候盐数、什么原因棒拂、對(duì)誰(shuí)、做了什么事玫氢、有什么結(jié)果帚屉。
- 文本生成:機(jī)器像人一樣使用自然語(yǔ)言進(jìn)行表達(dá)和寫(xiě)作。依據(jù)輸入的不同漾峡,文本生成技術(shù)主要包括數(shù)據(jù)到文本生成和文本到文本生成攻旦。數(shù)據(jù)到文本生成是指將包含鍵值對(duì)的數(shù)據(jù)轉(zhuǎn)化為自然語(yǔ)言文本;文本到文本生成對(duì)輸入文本進(jìn)行轉(zhuǎn)化和處理從而產(chǎn)生新的文本生逸。
- 問(wèn)答系統(tǒng):對(duì)一個(gè)自然語(yǔ)言表達(dá)的問(wèn)題牢屋,由問(wèn)答系統(tǒng)給出一個(gè)精準(zhǔn)的答案。需要對(duì)自然語(yǔ)言查詢(xún)語(yǔ)句進(jìn)行某種程度的語(yǔ)義分析槽袄,包括實(shí)體鏈接烙无、關(guān)系識(shí)別,形成邏輯表達(dá)式遍尺,然后到知識(shí)庫(kù)中查找可能的候選答案并通過(guò)一個(gè)排序機(jī)制找出最佳的答案截酷。
- 對(duì)話系統(tǒng):系統(tǒng)通過(guò)一系列的對(duì)話,跟用戶(hù)進(jìn)行聊天狮鸭、回答合搅、完成某一項(xiàng)任務(wù)。涉及到用戶(hù)意圖理解歧蕉、通用聊天引擎灾部、問(wèn)答引擎、對(duì)話管理等技術(shù)惯退。此外赌髓,為了體現(xiàn)上下文相關(guān),要具備多輪對(duì)話能力。
- 文本挖掘:包括文本聚類(lèi)锁蠕、分類(lèi)夷野、情感分析以及對(duì)挖掘的信息和知識(shí)的可視化、交互式的表達(dá)界面荣倾。目前主流的技術(shù)都是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的悯搔。
- 語(yǔ)音識(shí)別和生成:語(yǔ)音識(shí)別是將輸入計(jì)算機(jī)的語(yǔ)音符號(hào)識(shí)別轉(zhuǎn)換成書(shū)面語(yǔ)表示。語(yǔ)音生成又稱(chēng)文語(yǔ)轉(zhuǎn)換舌仍、語(yǔ)音合成妒貌,它是指將書(shū)面文本自動(dòng)轉(zhuǎn)換成對(duì)應(yīng)的語(yǔ)音表征。
- 信息過(guò)濾:通過(guò)計(jì)算機(jī)系統(tǒng)自動(dòng)識(shí)別和過(guò)濾符合特定條件的文檔信息铸豁。通常指網(wǎng)絡(luò)有害信息的自動(dòng)識(shí)別和過(guò)濾灌曙,主要用于信息安全和防護(hù),網(wǎng)絡(luò)內(nèi)容管理等。
- 輿情分析:是指收集和處理海量信息,自動(dòng)化地對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析跃闹,以實(shí)現(xiàn)及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情的目的。
- 信息檢索:對(duì)大規(guī)模的文檔進(jìn)行索引蚣驼。可簡(jiǎn)單對(duì)文檔中的詞匯拧晕,賦之以不同的權(quán)重來(lái)建立索引隙姿,也可建立更加深層的索引。在查詢(xún)的時(shí)候厂捞,對(duì)輸入的查詢(xún)表達(dá)式比如一個(gè)檢索詞或者一個(gè)句子進(jìn)行分析输玷,然后在索引里面查找匹配的候選文檔,再根據(jù)一個(gè)排序機(jī)制把候選文檔排序靡馁,最后輸出排序得分最高的文檔欲鹏。
- 機(jī)器翻譯:把輸入的源語(yǔ)言文本通過(guò)自動(dòng)翻譯獲得另外一種語(yǔ)言的文本。機(jī)器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計(jì)的方法臭墨,再到今天的基于神經(jīng)網(wǎng)絡(luò)(編碼-解碼)的方法赔嚎,逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。
3. NLP的發(fā)展
1950年前:圖靈測(cè)試
1950年前阿蘭·圖靈圖靈測(cè)試:人和機(jī)器進(jìn)行交流胧弛,如果人無(wú)法判斷自己交流的對(duì)象是人還是機(jī)器尤误,就說(shuō)明這個(gè)機(jī)器具有智能。-
1950-1970:主流:基于規(guī)則形式語(yǔ)言理論
喬姆斯基结缚,根據(jù)數(shù)學(xué)中的公理化方法研究自然語(yǔ)言损晤,采用代數(shù)和集合論把形式語(yǔ)言定義為符號(hào)的序列。他試圖使用有限的規(guī)則描述無(wú)限的語(yǔ)言現(xiàn)象红竭,發(fā)現(xiàn)人類(lèi)普遍的語(yǔ)言機(jī)制尤勋,建立所謂的普遍語(yǔ)法喘落。
1970-至今:主流:基于統(tǒng)計(jì)
谷歌、微軟最冰、IBM瘦棋,20世紀(jì)70年代,弗里德里克·賈里尼克及其領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室將語(yǔ)音識(shí)別率從70%提升到90%暖哨。
1988年赌朋,IBM的彼得·布朗提出了基于統(tǒng)計(jì)的機(jī)器翻譯方法。
2005年篇裁,Google機(jī)器翻譯打敗基于規(guī)則的Sys Tran箕慧。-
2010年以后:逆襲:機(jī)器學(xué)習(xí)
AlphaGo先后戰(zhàn)勝李世石、柯潔等茴恰,掀起人工智能熱潮。深度學(xué)習(xí)斩熊、人工神經(jīng)網(wǎng)絡(luò)成為熱詞往枣。領(lǐng)域:語(yǔ)音識(shí)別、圖像識(shí)別粉渠、機(jī)器翻譯分冈、自動(dòng)駕駛、智能家居霸株。
4. NLP任務(wù)的一般步驟
下面圖片看不清楚的雕沉,可以百度腦圖查看,點(diǎn)擊鏈接
5. 我的NLP啟蒙讀本
6. NLP去件、CV坡椒,選哪個(gè)?
NLP:自然語(yǔ)言處理尤溜,數(shù)據(jù)是文本倔叼。
CV:計(jì)算機(jī)視覺(jué),數(shù)據(jù)是圖像宫莱。
兩者屬于不同的領(lǐng)域丈攒,在遇到這個(gè)問(wèn)題的時(shí)候,我也是猶豫了很久授霸,想了很多巡验,于是乎得出一個(gè)結(jié)論:都是利用深度學(xué)習(xí)去解決現(xiàn)實(shí)世界存在的問(wèn)題,離開(kāi)了CV碘耳,NLP存活不了显设;離開(kāi)了NLP,CV存活不了藏畅。兩者就像兄弟姐妹一樣敷硅,整個(gè)“家庭”不能分割但個(gè)體又存在差異功咒!
NLP/CV屬于兩個(gè)不同的研究領(lǐng)域,都是很好的領(lǐng)域绞蹦,可以根據(jù)自己的愛(ài)好作出適合自己的選擇力奋,人工智能是一個(gè)多學(xué)科交叉的領(lǐng)域,需要的不僅僅是單方面的能力幽七,而是多方面的能力景殷。對(duì)于每個(gè)人來(lái)說(shuō)都有自己的側(cè)重點(diǎn),畢竟人的精力是有限的澡屡。只要在自己擅長(zhǎng)的領(lǐng)域里持續(xù)深耕猿挚,我相信都會(huì)有所成就!
這里提供一些參考資料給大家閱讀閱讀驶鹉,做出適合自己的選擇:
作者:@mantchs
GitHub:https://github.com/NLP-LOVE/ML-NLP
歡迎大家加入討論!共同完善此項(xiàng)目室埋!群號(hào):【541954936】點(diǎn)擊加入