展開
? ? ? 從建模的角度看瓶蚂,為了方便計算機處理强霎,自然語言可以被定義為一組規(guī)則或符號的集合,我們組合集合中的符號來傳遞各種信息闷旧。自然語言處理研究表示語言能力长豁、語言應用的模型,通過建立計算機框架來實現(xiàn)這樣的語言模型忙灼,并且不斷完善這樣的語言模型匠襟,還需要根據(jù)語言模型來設(shè)計各種實用的系統(tǒng)钝侠,并且探討這些實用技術(shù)的評測技術(shù)。從自然語言的角度出發(fā)酸舍,NLP基本可以分為兩個部分:自然語言處理以及自然語言的生成帅韧,演化為理解和生成文本的任務。
? ? ? 自然語言的理解是個綜合的系統(tǒng)工程啃勉,它又包含了很多細分學科忽舟,有代表聲音的音系學,代表構(gòu)詞法的詞態(tài)學淮阐,代表語句結(jié)構(gòu)的句法學叮阅,代表理解的語義句法學和語用學。
音系學:指代語言中發(fā)音的系統(tǒng)化組織泣特。
詞態(tài)學:研究單詞構(gòu)成以及相互之間的關(guān)系浩姥。
句法學:給定文本的哪部分是語法正確的。
語義學:給定文本的含義是什么状您?
語用學:文本的目的是什么勒叠?
? ? ? 自然語言生成恰恰相反,從結(jié)構(gòu)化數(shù)據(jù)中以讀取的方式自動生成文本膏孟。該過程主要包含三個階段:文本規(guī)劃(完成結(jié)構(gòu)化數(shù)據(jù)中的基礎(chǔ)內(nèi)容規(guī)劃)缴饭、語句規(guī)劃(從結(jié)構(gòu)化數(shù)據(jù)中組合語句來表達信息流)、實現(xiàn)(產(chǎn)生語法通順的語句來表達文本)骆莹。
1.2颗搂、NLP的研究任務
機器翻譯:計算機具備將一種語言翻譯成另一種語言的能力。
情感分析:計算機能夠判斷用戶評論是否積極幕垦。
智能問答:計算機能夠正確回答輸入的問題丢氢。
文摘生成:能夠準確歸納、總結(jié)并產(chǎn)生文本摘要先改。
文本分類:能夠采集各種文章疚察,進行主題分析,從而進行自動分類仇奶。
輿論分析:能夠判斷目前輿論的導向貌嫡。
知識圖譜:知識點相互連接而成的語義網(wǎng)絡(luò)。
1.3该溯、NLP相關(guān)知識的構(gòu)成
?分詞(segment):詞是最小的能夠獨立活動的有意義的語言成分岛抄,英文單詞之間是以空格作為自然分界符的,而漢語是以字位基本的書寫單位狈茉,詞語之間沒有明顯的區(qū)分標記夫椭,因此,中文詞語分析是中文分詞的基礎(chǔ)和關(guān)鍵氯庆。中文分詞常用的手段是基于字典的最長串匹配蹭秋,據(jù)說可以解決85%的問題扰付,但是歧義分詞很難。
詞性標注(part-of-speech tagging):標注的目的是表征詞的一種隱藏狀態(tài)仁讨,隱藏狀態(tài)構(gòu)成的轉(zhuǎn)移就構(gòu)成了狀態(tài)轉(zhuǎn)移序列羽莺。
命名實體識別(NER, Named Entity Recognition):從文本中識別具有特定類別的實體(通常是名詞)
句法分析(syntax parsing):往往是一種基于規(guī)則的專家系統(tǒng)。目的是解析句子中各個成分的依賴關(guān)系洞豁,可以解決傳統(tǒng)詞袋模型不考慮上下文的問題禽翼。
指代消解(anaphora resolution):中文中代詞出現(xiàn)的頻率很高
情感識別(emotion recognition):本質(zhì)上是分類問題,通匙艴耍可以基于詞袋模型+分類器闰挡,或者現(xiàn)在流行的詞向量模型+RNN。經(jīng)過測試發(fā)現(xiàn)后者比前者準確率略有提升礁哄。
糾錯(correction):具體做法有很多长酗,可以基于N-Gram進行糾錯,也可以通過字典樹桐绒、有限狀態(tài)機等方法進行糾錯夺脾。
問答系統(tǒng)(QA system):往往需要語音識別、合成茉继、自然語言理解咧叭、知識圖譜等多項技術(shù)的配合才會實現(xiàn)得比較好。
? ? 知識結(jié)構(gòu):NLP是研究人和機器之間用自然語言進行有效通信的理解和方法烁竭。這需要很多跨學科的知識菲茬,需要語言學、統(tǒng)計學派撕、最優(yōu)化理論婉弹、機器學習、深度學習以及自然語言處理相關(guān)理論模型知識做基礎(chǔ)终吼。
句法語義分析:針對目標句子镀赌,進行各種句法分析,如分詞际跪、詞性標記商佛、命名實體識別及鏈接、句法分析姆打、語義角色識別和多義詞消歧等良姆。
關(guān)鍵詞抽取:抽取目標文本中的主要信息穴肘,比如從一條新聞中抽取關(guān)機信息歇盼。主要是了解是誰舔痕、于何時评抚、為何豹缀、對誰、做了何事慨代、產(chǎn)生了有什么結(jié)果邢笙。涉及實體識別、時間抽取侍匙、因果關(guān)系抽取等多項關(guān)鍵技術(shù)氮惯。
文本挖掘:主要包含了對文本的聚類、分類想暗、信息抽取妇汗、摘要、情感分析以及對挖掘的信息和知識的可視化说莫、交互式的呈現(xiàn)界面杨箭。
機器翻譯:將輸入的源語言文本通過自動翻譯轉(zhuǎn)化為另一種語言的文本。根據(jù)輸入數(shù)據(jù)類型的不同储狭,可細分位文本翻譯互婿、語音翻譯、手語翻譯辽狈、圖形翻譯等慈参。機器翻譯從最早的基于規(guī)則到二十年前的基于統(tǒng)計的方法,再到今天的基于深度學習(編解碼)的方法刮萌,逐漸形成了一套比較嚴謹?shù)姆椒w系驮配。
信息檢索:對大規(guī)模的文檔進行索引∽湃祝可簡單對文檔中的詞匯僧凤,賦以不同的權(quán)重來建立索引,也可使用算法模型來建立更加深層的索引元扔。查詢時躯保,首先對輸入比進行分析,然后在索引里面查找匹配的候選文檔澎语,再根據(jù)一個排序機制把候選文檔排序途事,最后輸出排序得分最高的文檔。
問答系統(tǒng):針對某個自然語言表達的問題擅羞,由問答系統(tǒng)給出一個精準的答案尸变。需要對自然語言查詢語句進行語義分析,包括實體鏈接减俏、關(guān)系識別召烂,形成邏輯表達式,然后到知識庫中查找可能的候選答案并通過一個排序機制找出最佳的答案娃承。
對話系統(tǒng):系統(tǒng)通過多回合對話奏夫,跟用戶進行聊天怕篷、回答、完成某項任務酗昼。主要涉及用戶意圖理解廊谓、通用聊天引擎、問答引擎麻削、對話管理等技術(shù)蒸痹。此外,為了體現(xiàn)上下文相關(guān)呛哟,要具備多輪對話能力叠荠。同時,為了體現(xiàn)個性化扫责,對話系統(tǒng)還需要基于用戶畫像做個性化回復蝙叛。
————————————————
版權(quán)聲明:本文為CSDN博主「CopperDong」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議公给,轉(zhuǎn)載請附上原文出處鏈接及本聲明借帘。
原文鏈接:https://blog.csdn.net/QFire/java/article/details/81046637