Python自然語言處理實戰(zhàn)（1）：NLP基礎(chǔ)

展開

? ? ? 從建模的角度看瓶蚂，為了方便計算機處理强霎，自然語言可以被定義為一組規(guī)則或符號的集合，我們組合集合中的符號來傳遞各種信息闷旧。自然語言處理研究表示語言能力长豁、語言應用的模型，通過建立計算機框架來實現(xiàn)這樣的語言模型忙灼，并且不斷完善這樣的語言模型匠襟，還需要根據(jù)語言模型來設(shè)計各種實用的系統(tǒng)钝侠，并且探討這些實用技術(shù)的評測技術(shù)。從自然語言的角度出發(fā)酸舍，NLP基本可以分為兩個部分：自然語言處理以及自然語言的生成帅韧，演化為理解和生成文本的任務。

? ? ? 自然語言的理解是個綜合的系統(tǒng)工程啃勉，它又包含了很多細分學科忽舟，有代表聲音的音系學，代表構(gòu)詞法的詞態(tài)學淮阐，代表語句結(jié)構(gòu)的句法學叮阅，代表理解的語義句法學和語用學。

音系學：指代語言中發(fā)音的系統(tǒng)化組織泣特。

詞態(tài)學：研究單詞構(gòu)成以及相互之間的關(guān)系浩姥。

句法學：給定文本的哪部分是語法正確的。

語義學：給定文本的含義是什么状您？

語用學：文本的目的是什么勒叠？

? ? ? 自然語言生成恰恰相反，從結(jié)構(gòu)化數(shù)據(jù)中以讀取的方式自動生成文本膏孟。該過程主要包含三個階段：文本規(guī)劃（完成結(jié)構(gòu)化數(shù)據(jù)中的基礎(chǔ)內(nèi)容規(guī)劃）缴饭、語句規(guī)劃（從結(jié)構(gòu)化數(shù)據(jù)中組合語句來表達信息流）、實現(xiàn)（產(chǎn)生語法通順的語句來表達文本）骆莹。

1.2颗搂、NLP的研究任務

機器翻譯：計算機具備將一種語言翻譯成另一種語言的能力。

情感分析：計算機能夠判斷用戶評論是否積極幕垦。

智能問答：計算機能夠正確回答輸入的問題丢氢。

文摘生成：能夠準確歸納、總結(jié)并產(chǎn)生文本摘要先改。

文本分類：能夠采集各種文章疚察，進行主題分析，從而進行自動分類仇奶。

輿論分析：能夠判斷目前輿論的導向貌嫡。

知識圖譜：知識點相互連接而成的語義網(wǎng)絡(luò)。

1.3该溯、NLP相關(guān)知識的構(gòu)成

?分詞（segment）：詞是最小的能夠獨立活動的有意義的語言成分岛抄，英文單詞之間是以空格作為自然分界符的，而漢語是以字位基本的書寫單位狈茉，詞語之間沒有明顯的區(qū)分標記夫椭，因此，中文詞語分析是中文分詞的基礎(chǔ)和關(guān)鍵氯庆。中文分詞常用的手段是基于字典的最長串匹配蹭秋，據(jù)說可以解決85%的問題扰付，但是歧義分詞很難。

詞性標注（part-of-speech tagging）：標注的目的是表征詞的一種隱藏狀態(tài)仁讨，隱藏狀態(tài)構(gòu)成的轉(zhuǎn)移就構(gòu)成了狀態(tài)轉(zhuǎn)移序列羽莺。

命名實體識別（NER, Named Entity Recognition）：從文本中識別具有特定類別的實體（通常是名詞）

句法分析（syntax parsing）：往往是一種基于規(guī)則的專家系統(tǒng)。目的是解析句子中各個成分的依賴關(guān)系洞豁，可以解決傳統(tǒng)詞袋模型不考慮上下文的問題禽翼。

指代消解（anaphora resolution）：中文中代詞出現(xiàn)的頻率很高

情感識別（emotion recognition）：本質(zhì)上是分類問題，通匙艴耍可以基于詞袋模型+分類器闰挡，或者現(xiàn)在流行的詞向量模型+RNN。經(jīng)過測試發(fā)現(xiàn)后者比前者準確率略有提升礁哄。

糾錯（correction）：具體做法有很多长酗，可以基于N-Gram進行糾錯，也可以通過字典樹桐绒、有限狀態(tài)機等方法進行糾錯夺脾。

問答系統(tǒng)（QA system）：往往需要語音識別、合成茉继、自然語言理解咧叭、知識圖譜等多項技術(shù)的配合才會實現(xiàn)得比較好。

? ? 知識結(jié)構(gòu)：NLP是研究人和機器之間用自然語言進行有效通信的理解和方法烁竭。這需要很多跨學科的知識菲茬，需要語言學、統(tǒng)計學派撕、最優(yōu)化理論婉弹、機器學習、深度學習以及自然語言處理相關(guān)理論模型知識做基礎(chǔ)终吼。

句法語義分析：針對目標句子镀赌，進行各種句法分析，如分詞际跪、詞性標記商佛、命名實體識別及鏈接、句法分析姆打、語義角色識別和多義詞消歧等良姆。

關(guān)鍵詞抽取：抽取目標文本中的主要信息穴肘，比如從一條新聞中抽取關(guān)機信息歇盼。主要是了解是誰舔痕、于何時评抚、為何豹缀、對誰、做了何事慨代、產(chǎn)生了有什么結(jié)果邢笙。涉及實體識別、時間抽取侍匙、因果關(guān)系抽取等多項關(guān)鍵技術(shù)氮惯。

文本挖掘：主要包含了對文本的聚類、分類想暗、信息抽取妇汗、摘要、情感分析以及對挖掘的信息和知識的可視化说莫、交互式的呈現(xiàn)界面杨箭。

機器翻譯：將輸入的源語言文本通過自動翻譯轉(zhuǎn)化為另一種語言的文本。根據(jù)輸入數(shù)據(jù)類型的不同储狭，可細分位文本翻譯互婿、語音翻譯、手語翻譯辽狈、圖形翻譯等慈参。機器翻譯從最早的基于規(guī)則到二十年前的基于統(tǒng)計的方法，再到今天的基于深度學習（編解碼）的方法刮萌，逐漸形成了一套比較嚴謹?shù)姆椒w系驮配。

信息檢索：對大規(guī)模的文檔進行索引∽湃祝可簡單對文檔中的詞匯僧凤，賦以不同的權(quán)重來建立索引，也可使用算法模型來建立更加深層的索引元扔。查詢時躯保，首先對輸入比進行分析，然后在索引里面查找匹配的候選文檔澎语，再根據(jù)一個排序機制把候選文檔排序途事，最后輸出排序得分最高的文檔。

問答系統(tǒng)：針對某個自然語言表達的問題擅羞，由問答系統(tǒng)給出一個精準的答案尸变。需要對自然語言查詢語句進行語義分析，包括實體鏈接减俏、關(guān)系識別召烂，形成邏輯表達式，然后到知識庫中查找可能的候選答案并通過一個排序機制找出最佳的答案娃承。

對話系統(tǒng)：系統(tǒng)通過多回合對話奏夫，跟用戶進行聊天怕篷、回答、完成某項任務酗昼。主要涉及用戶意圖理解廊谓、通用聊天引擎、問答引擎麻削、對話管理等技術(shù)蒸痹。此外，為了體現(xiàn)上下文相關(guān)呛哟，要具備多輪對話能力叠荠。同時，為了體現(xiàn)個性化扫责，對話系統(tǒng)還需要基于用戶畫像做個性化回復蝙叛。

————————————————

版權(quán)聲明：本文為CSDN博主「CopperDong」的原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議公给，轉(zhuǎn)載請附上原文出處鏈接及本聲明借帘。

原文鏈接：https://blog.csdn.net/QFire/java/article/details/81046637

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市淌铐，隨后出現(xiàn)的幾起案子肺然，更是在濱河造成了極大的恐慌，老刑警劉巖腿准，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件际起，死亡現(xiàn)場離奇詭異，居然都是意外死亡吐葱，警方通過查閱死者的電腦和手機街望，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來弟跑，“玉大人灾前，你說我怎么就攤上這事∶霞” “怎么了哎甲？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長饲嗽。經(jīng)常有香客問我炭玫，道長，這世上最難降的妖魔是什么貌虾？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任吞加，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘衔憨。我一直安慰自己叶圃，他們只是感情好，可當我...
茶點故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布巫财。她就那樣靜靜地躺著盗似，像睡著了一般哩陕。火紅的嫁衣襯著肌膚如雪平项。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天悍及，我揣著相機與錄音闽瓢，去河邊找鬼。笑死心赶，一個胖子當著我的面吹牛扣讼，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播缨叫，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼椭符，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了耻姥？” 一聲冷哼從身側(cè)響起销钝，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎琐簇，沒想到半個月后蒸健，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡婉商，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年似忧，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丈秩。...
茶點故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡盯捌，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出蘑秽，到底是詐尸還是另有隱情顿颅，我是刑警寧澤躬窜，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響牲距，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜菱皆，卻給世界環(huán)境...
茶點故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一恤浪、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦严拒、人聲如沸扬绪。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案裤唠，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽挤牛。三九已至，卻和暖如春种蘸，著一層夾襖步出監(jiān)牢的瞬間墓赴，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工航瞭，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留诫硕，地道東北人。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓刊侯，卻偏偏與公主長得像章办，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子滨彻，可洞房花燭夜當晚...
茶點故事閱讀 44,724評論 2贊 354

Python自然語言處理實戰(zhàn)（1）：NLP基礎(chǔ)

推薦閱讀更多精彩內(nèi)容