自然語言處理相關(guān)技術(shù)與任務簡介

聲明:轉(zhuǎn)載請注明出處:http://www.reibang.com/p/98ef4c6a8d83

另外需五,更多實時更新的個人學習筆記分享蝶缀,請關(guān)注:

CSDN地址:http://blog.csdn.net/m0_37306360

知乎:https://www.zhihu.com/people/yuquanle/columns

公眾號:StudyForAI?


自然語言處理(NLP)是人工智能的一個重要應用領域潮梯,由于本人主要研究方向為NLP耸袜,也由于最近學習的需要混驰,特意搜羅資料,整理了一份簡要的NLP的基本任務和研究方向刻炒,希望對大家有幫助决采。

自然語言的發(fā)展:?一般認為1950 年圖靈提出著名的“圖靈測試”是自然語言處理思想的開端。20 世紀 50 年代到 70 年代自然語言處理主要采用基于規(guī)則的方法坟奥∈鞑t;谝?guī)則的方法不可能覆蓋所有語句,且對開發(fā)者的要求極高爱谁。這時的自然語言處理停留在理性主義思潮階段晒喷。70 年代以后隨著互聯(lián)網(wǎng)的高速發(fā)展,語料庫越來越豐富以及硬件更新完善访敌,自然語言處理思潮由理性主義向經(jīng)驗主義過渡凉敲,基于統(tǒng)計的方法逐漸代替了基于規(guī)則的方法。從 2008 年到現(xiàn)在,由于深度學習在圖像識別荡陷、語音識別等領域不斷取得突破雨效,人們也逐漸開始引入深度學習來做自然語言處理研究,由最初的詞向量到 2013 年 word2vec废赞,將深度學習與自然語言處理的結(jié)合推向了高潮,并且在機器翻譯叮姑、問答系統(tǒng)唉地、閱讀理解等領域取得了一定成功。

------------------------------------------------這里是分割線--------------------------------------------------

先來看看自然語言處理的定義:

自然語言是指漢語传透、英語等人們?nèi)粘J褂玫恼Z言耘沼,是隨著人類社會發(fā)展自然而然的演變而來的語言,不是人造的語言朱盐,自然語言是人類學習生活的重要工具群嗤。或者說兵琳,自然語言是指人類社會約定俗成的狂秘,區(qū)別于人工語言,如程序設計的語言躯肌。

處理包含理解者春、轉(zhuǎn)化、生成等過程清女。自然語言處理钱烟,是指用計算機對自然語言的形、音嫡丙、義等信息進行處理拴袭,即對字(如果是英文即為字符)、詞曙博、句拥刻、段落、篇章的輸入羊瘩、輸出泰佳、識別、分析尘吗、理解逝她、生成等的操作和加工。實現(xiàn)人機間的信息交流睬捶,是人工智能界黔宛、計算機科學和語言學界所共同關(guān)注的重要問題。所以自然語言處理也被譽為人工智能的掌上明珠擒贸⊥位危可以說觉渴,自然語言處理就是要計算機理解自然語言,自然語言處理機制涉及兩個流程徽惋,包括自然語言理解和自然語言生成案淋。自然語言理解是指計算機能夠理解自然語言文本的意義,自然語言生成則是指能以自然語言文本來表達給定的意圖险绘。

自然語言的理解和分析是一個層次化的過程踢京,許多語言學家把這一過程分為五個層次,可以更好地體現(xiàn)語言本身的構(gòu)成宦棺,五個層次分別是語音分析瓣距、詞法分析、句法分析代咸、語義分析和語用分析蹈丸。

語音分析是要根據(jù)音位規(guī)則,從語音流中區(qū)分出一個個獨立的音素呐芥,再根據(jù)音位形態(tài)規(guī)則找出音節(jié)及其對應的詞素或詞逻杖。

詞法分析是找出詞匯的各個詞素,從中獲得語言學的信息贩耐。

句法分析是對句子和短語的結(jié)構(gòu)進行分析弧腥,目的是要找出詞、短語等的相互關(guān)系以及各自在句中的作用潮太。

語義分析是指運用各種機器學習方法管搪,學習與理解一段文本所表示的語義內(nèi)容。 語義分析是一個非常廣的概念铡买。

語用分析是研究語言所存在的外界環(huán)境對語言使用者所產(chǎn)生的影響更鲁。

這里根據(jù)自己的學習以及查閱相關(guān)資料的理解,簡要的介紹一下自然語言處理(nlp)一些相關(guān)技術(shù)以及相關(guān)任務奇钞,nlp技術(shù)包括基礎技術(shù)和應用技術(shù)澡为。

基礎技術(shù)包括詞法分析、句法分析景埃、語義分析等媒至。

詞法分析(lexical analysis):?包括漢語分詞(word segmentation 或 tokenization)和詞性標注(part-of-speech tag)等。

漢語分詞:處理漢語(英文自帶分詞)首要工作就是要將輸入的字串切分為單獨的詞語谷徙,這一步驟稱為分詞拒啰。

詞性標注:詞性標注的目的是為每一個詞賦予一個類別,這個類別稱為詞性標記完慧。比如谋旦,名詞(noun)、動詞(verb)等。

句法分析(syntactic parsing):是對輸入的文本句子進行分析得到句子的句法結(jié)構(gòu)的處理過程册着。最常見的句法分析任務有下列幾種:

短語結(jié)構(gòu)句法分析(phrase-structure syntactic parsing)拴孤,該任務也被稱作成分句法分析(constituent syntactic parsing),作用是識別出句子中的短語結(jié)構(gòu)以及短語之間的層次句法關(guān)系甲捏;?

依存句法分析(dependency syntactic parsing)演熟,作用是識別句子中詞匯與詞匯之間的相互依存關(guān)系;

深層文法句法分析司顿,即利用深層文法绽媒,例如詞匯化樹鄰接文法(Lexicalized Tree Adjoining Grammar, LTAG)免猾、詞匯功能文法(Lexical Functional Grammar, LFG)囤热、組合范疇文法(Combinatory Categorial Grammar猎提, CCG)等,對句子進行深層的句法以及語義分析旁蔼。

語義分析(Semantic Analysis):語義分析的最終目的是理解句子表達的真實語義锨苏。但是,語義應該采用什么表示形式一直困擾著研究者們棺聊,至今這個問題也沒有一個統(tǒng)一的答案伞租。語義角色標注(semantic role labeling)是目前比較成熟的淺層語義分析技術(shù)。

總而言之限佩,自然語言處理系統(tǒng)通常采用級聯(lián)的方式葵诈,即分詞、詞性標注祟同、句法分析作喘、語義分析分別訓練模型。在使用過程中晕城,給定輸入句子泞坦,逐一使用各個模塊進行分析,最終得到所有結(jié)果砖顷。近年來贰锁,研究者們提出了很多有效的聯(lián)合模型,將多個任務聯(lián)合學習和解碼滤蝠,如分詞詞性聯(lián)合豌熄、詞性句法聯(lián)合、分詞詞性句法聯(lián)合几睛、句法語義聯(lián)合等房轿,取得了不錯的效果。特別值得一提的是,今年EMNLP上有一個聯(lián)合模型的教程囱持,大家可以從這里下載:https://pan.baidu.com/s/1DxOqXxlK-1BCHqMCwr5_ZA夯接。

另一方面是自然語言處理的應用技術(shù):這些任務往往會依賴基礎技術(shù),包括文本聚類(Text Clustering)纷妆、文本分類(Text Classification)盔几、文本摘要(Text abstract)、情感分析(sentiment analysis)掩幢、自動問答(Question Answering, QA)逊拍、機器翻譯(machine translation, MT)际邻、信息抽刃旧ァ(Information Extraction)、信息推薦(Information Recommendation)世曾、信息檢索(Information Retrieval, IR)等缨恒。因為每一個任務都涉及的東西很多,因此在這里我知識簡單總結(jié)介紹一下這些任務轮听,等以后有時間隨著我的學習深入骗露,再分專題詳細總結(jié)各種技術(shù)。

文本分類:文本分類任務是根據(jù)給定文檔的內(nèi)容或主題血巍,自動分配預先定義的類別標簽萧锉。

文本聚類:任務則是根據(jù)文檔之間的內(nèi)容或主題相似度,將文檔集合劃分成若干個子集述寡,每個子集內(nèi)部的文檔相似度較高柿隙,而子集之間的相似度較低。

文本摘要:文本摘要任務是指通過對原文本進行壓縮辨赐、提煉箱歧,為用戶提供簡明扼要的文字描述界赔。

情感分析:情感分析任務是指利用計算機實現(xiàn)對文本數(shù)據(jù)的觀點、情感、態(tài)度坯辩、情緒等的分析挖掘驾诈。

自動問答:自動問答是指利用計算機自動回答用戶所提出的問題以滿足用戶知識需求的任務灵妨。

機器翻譯:機器翻譯是指利用計算機實現(xiàn)從一種自然語言到另外一種自然語言的自動翻譯着憨。被翻譯的語言稱為源語言(source language), 翻譯到的語言稱作目標語言(target language)换吧。

信息抽日刍蕖:信息抽取是指從非結(jié)構(gòu)化/半結(jié)構(gòu)化文本(如網(wǎng)頁、新聞沾瓦、論文文獻满着、微博等)中提取指定類型的信息(如實體谦炒、屬性、關(guān)系风喇、事件宁改、商品記錄等),并通過信息歸并魂莫、冗余消除和沖突消解等手段將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化信息的一項綜合技術(shù)还蹲。

信息推薦:信息推薦據(jù)用戶的習慣、 偏好或興趣耙考, 從不斷到來的大規(guī)模信息中識別滿足用戶興趣的信息的過程谜喊。

信息檢索:信息檢索是指將信息按一定的方式加以組織,并通過信息查找滿足用戶的信息需求的過程和技術(shù)倦始。


參考:

1.中文信息處理發(fā)展報告(2016)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末斗遏,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子鞋邑,更是在濱河造成了極大的恐慌最易,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,542評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件炫狱,死亡現(xiàn)場離奇詭異,居然都是意外死亡剔猿,警方通過查閱死者的電腦和手機视译,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來归敬,“玉大人酷含,你說我怎么就攤上這事⊥艏耄” “怎么了椅亚?”我有些...
    開封第一講書人閱讀 158,021評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長舱污。 經(jīng)常有香客問我呀舔,道長,這世上最難降的妖魔是什么扩灯? 我笑而不...
    開封第一講書人閱讀 56,682評論 1 284
  • 正文 為了忘掉前任媚赖,我火速辦了婚禮,結(jié)果婚禮上珠插,老公的妹妹穿的比我還像新娘惧磺。我一直安慰自己,他們只是感情好捻撑,可當我...
    茶點故事閱讀 65,792評論 6 386
  • 文/花漫 我一把揭開白布磨隘。 她就那樣靜靜地躺著缤底,像睡著了一般。 火紅的嫁衣襯著肌膚如雪番捂。 梳的紋絲不亂的頭發(fā)上个唧,一...
    開封第一講書人閱讀 49,985評論 1 291
  • 那天,我揣著相機與錄音白嘁,去河邊找鬼坑鱼。 笑死,一個胖子當著我的面吹牛絮缅,可吹牛的內(nèi)容都是我干的鲁沥。 我是一名探鬼主播,決...
    沈念sama閱讀 39,107評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼耕魄,長吁一口氣:“原來是場噩夢啊……” “哼画恰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起吸奴,我...
    開封第一講書人閱讀 37,845評論 0 268
  • 序言:老撾萬榮一對情侶失蹤允扇,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后则奥,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體考润,經(jīng)...
    沈念sama閱讀 44,299評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,612評論 2 327
  • 正文 我和宋清朗相戀三年读处,在試婚紗的時候發(fā)現(xiàn)自己被綠了糊治。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,747評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡井辜,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出管闷,到底是詐尸還是另有隱情粥脚,我是刑警寧澤包个,帶...
    沈念sama閱讀 34,441評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站碧囊,受9級特大地震影響恃锉,放射性物質(zhì)發(fā)生泄漏呕臂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,072評論 3 317
  • 文/蒙蒙 一歧蒋、第九天 我趴在偏房一處隱蔽的房頂上張望土砂。 院中可真熱鬧,春花似錦萝映、人聲如沸吴叶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽奥秆。三九已至逊彭,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間构订,已是汗流浹背侮叮。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留悼瘾,地道東北人囊榜。 一個月前我還...
    沈念sama閱讀 46,545評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像亥宿,于是被迫代替她去往敵國和親卸勺。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,658評論 2 350