NLP第21課:中文自然語言處理的應(yīng)用清钥、現(xiàn)狀和未來

自然語言理解和自然語言生成是自然語言處理的兩大內(nèi)核州叠,機(jī)器翻譯是自然語言理解方面最早的研究工作。自然語言處理的主要任務(wù)是:研究表示語言能力和語言應(yīng)用的模型浩聋,建立和實(shí)現(xiàn)計(jì)算框架并提出相應(yīng)的方法不斷地完善模型观蜗,根據(jù)這樣的語言模型設(shè)計(jì)有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng),并研討關(guān)于系統(tǒng)的評(píng)測技術(shù)衣洁,最終實(shí)現(xiàn)用自然語言與計(jì)算機(jī)進(jìn)行通信墓捻。目前,具有一定自然語言處理能力的典型應(yīng)用包括計(jì)算機(jī)信息檢索系統(tǒng)坊夫、多語種翻譯系統(tǒng)等砖第。

enter image description here

微軟創(chuàng)始人比爾·蓋茨曾經(jīng)表示,“語言理解是人工智能領(lǐng)域皇冠上的明珠”环凿。

語言是邏輯思維和交流的工具梧兼,宇宙萬物中,只有人類才具有這種高級(jí)功能智听。要實(shí)現(xiàn)人與計(jì)算機(jī)間采用自然語言通信羽杰,必須使計(jì)算機(jī)同時(shí)具備自然語言理解和自然語言生成兩大功能。

因此到推,NLP 作為人工智能的一個(gè)子領(lǐng)域考赛,其主要目的就包括兩個(gè)方面:自然語言理解,讓計(jì)算機(jī)理解自然語言文本的意義莉测;自然語言生成颜骤,讓計(jì)算機(jī)能以自然語言文本來表達(dá)給定的意圖、思想等悔雹。自然語言是人類智慧的結(jié)晶复哆,自然語言處理是人工智能中最為困難的問題之一,而對自然語言處理的研究也是充滿魅力和挑戰(zhàn)的腌零。

NLP 領(lǐng)域發(fā)展現(xiàn)狀如何梯找?

近年來,自然語言處理處于快速發(fā)展階段益涧。各種詞表锈锤、語義語法詞典、語料庫等數(shù)據(jù)資源的日益豐富,詞語切分久免、詞性標(biāo)注浅辙、句法分析等技術(shù)的快速進(jìn)步,各種新理論阎姥、新方法记舆、新模型的出現(xiàn)推動(dòng)了自然語言處理研究的繁榮『舭停互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)和世界經(jīng)濟(jì)社會(huì)一體化的潮流對自然語言處理技術(shù)的迫切需求泽腮,為自然語言處理研究發(fā)展提供了強(qiáng)大的市場動(dòng)力。

我國直到上世紀(jì)80年代中期才開始較大規(guī)模和較系統(tǒng)的自然語言處理研究衣赶,盡管較國際水平尚有較大差距诊赊,但已經(jīng)有了比較穩(wěn)定的研究內(nèi)容,包括語料庫府瞄、知識(shí)庫等數(shù)據(jù)資源建設(shè)碧磅,詞語切分、句法分析等基礎(chǔ)技術(shù)遵馆,以及信息檢索鲸郊、機(jī)器翻譯等應(yīng)用技術(shù)。

當(dāng)前國內(nèi)外出現(xiàn)了一批基于 NLP 技術(shù)的應(yīng)用系統(tǒng)团搞,例如 IBM 的 Watson 在電視問答節(jié)目中戰(zhàn)勝人類冠軍严望;蘋果公司的 Siri 個(gè)人助理被大眾廣為測試;谷歌逻恐、微軟像吻、百度等公司紛紛發(fā)布個(gè)人智能助理;科大訊飛牽頭研發(fā)高考機(jī)器人……但相比于性能趨于飽和的計(jì)算機(jī)視覺和語音識(shí)別技術(shù)复隆,自然語言處理因技術(shù)難度太大拨匆、應(yīng)用場景太復(fù)雜,研究成果還未達(dá)到足夠的高度挽拂。

自然語言處理中句子級(jí)分析技術(shù)

目前盏缤,自然語言處理的對象有詞唱歧、句子绳匀、篇章和段落投放、文本等,但是大多歸根到底在句子的處理上绒北,自然語言處理中的自然語言句子級(jí)分析技術(shù)黎侈,可以大致分為詞法分析、句法分析闷游、語義分析三個(gè)層面峻汉。

第一層面的詞法分析包括漢語分詞和詞性標(biāo)注兩部分贴汪。和大部分西方語言不同,漢語書面語詞語之間沒有明顯的空格標(biāo)記休吠,文本中的句子以字串的形式出現(xiàn)扳埂。因此漢語自然語言處理的首要工作就是要將輸入的字串切分為單獨(dú)的詞語,然后在此基礎(chǔ)上進(jìn)行其他更高級(jí)的分析瘤礁,這一步驟稱為分詞阳懂。

除了分詞,詞性標(biāo)注也通常認(rèn)為是詞法分析的一部分蔚携。給定一個(gè)切好詞的句子希太,詞性標(biāo)注的目的是為每一個(gè)詞賦予一個(gè)類別,這個(gè)類別稱為詞性標(biāo)記酝蜒,比如,名詞(Noun)矾湃、動(dòng)詞(Verb)亡脑、形容詞(Adjective)等。一般來說邀跃,屬于相同詞性的詞霉咨,在句法中承擔(dān)類似的角色。

第二個(gè)層面的句法分析是對輸入的文本句子進(jìn)行分析以得到句子的句法結(jié)構(gòu)的處理過程拍屑。對句法結(jié)構(gòu)進(jìn)行分析途戒,一方面是語言理解的自身需求,句法分析是語言理解的重要一環(huán)僵驰,另一方面也為其它自然語言處理任務(wù)提供支持喷斋。例如句法驅(qū)動(dòng)的統(tǒng)計(jì)機(jī)器翻譯需要對源語言或目標(biāo)語言(或者同時(shí)兩種語言)進(jìn)行句法分析;語義分析通常以句法分析的輸出結(jié)果作為輸入以便獲得更多的指示信息蒜茴。

根據(jù)句法結(jié)構(gòu)表示形式的不同星爪,最常見的句法分析任務(wù)可以分為以下三種:

  1. 短語結(jié)構(gòu)句法分析,該任務(wù)也被稱作成分句法分析粉私,作用是識(shí)別出句子中的短語結(jié)構(gòu)以及短語之間的層次句法關(guān)系顽腾;
  2. 依存句法分析,作用是識(shí)別句子中詞匯與詞匯之間的相互依存關(guān)系诺核;
  3. 深層文法句法分析抄肖,即利用深層文法,例如詞匯化樹鄰接文法窖杀、詞匯功能文法漓摩、組合范疇文法等,對句子進(jìn)行深層的句法以及語義分析陈瘦。

上述幾種句法分析任務(wù)比較而言幌甘,依存句法分析屬于淺層句法分析潮售。其實(shí)現(xiàn)過程相對簡單,比較適合在多語言環(huán)境下的應(yīng)用锅风,但是依存句法分析所能提供的信息也相對較少酥诽。深層文法句法分析可以提供豐富的句法和語義信息,但是采用的文法相對復(fù)雜皱埠,分析器的運(yùn)行復(fù)雜度也較高肮帐,這使得深層句法分析當(dāng)前不適合處理大規(guī)模數(shù)據(jù)。短語結(jié)構(gòu)句法分析介于依存句法分析和深層文法句法分析之間边器。

第三個(gè)層面是語義分析训枢。語義分析的最終目的是理解句子表達(dá)的真實(shí)語義。但是忘巧,語義應(yīng)該采用什么表示形式一直困擾著研究者們恒界,至今這個(gè)問題也沒有一個(gè)統(tǒng)一的答案。

語義角色標(biāo)注是目前比較成熟的淺層語義分析技術(shù)砚嘴∈ǎ基于邏輯表達(dá)的語義分析也得到學(xué)術(shù)界的長期關(guān)注。出于機(jī)器學(xué)習(xí)模型復(fù)雜度际长、效率的考慮耸采,自然語言處理系統(tǒng)通常采用級(jí)聯(lián)的方式,即分詞工育、詞性標(biāo)注虾宇、句法分析、語義分析分別訓(xùn)練模型如绸。實(shí)際使用時(shí)嘱朽,給定輸入句子,逐一使用各個(gè)模塊進(jìn)行分析竭沫,最終得到所有結(jié)果燥翅。

深度學(xué)習(xí)背景下的自然語言處理

近年來,隨著研究工作的深入蜕提,研究者們開始從傳統(tǒng)機(jī)器學(xué)習(xí)轉(zhuǎn)向深度學(xué)習(xí)森书。2006年開始,有人利用深層神經(jīng)網(wǎng)絡(luò)在大規(guī)模無標(biāo)注語料上無監(jiān)督的為每個(gè)詞學(xué)到了一個(gè)分布式表示谎势,形式上把每個(gè)單詞表示成一個(gè)固定維數(shù)的向量凛膏,當(dāng)作詞的底層特征。在此特征基礎(chǔ)上脏榆,完成了詞性標(biāo)注猖毫、命名實(shí)體識(shí)別和語義角色標(biāo)注等多個(gè)任務(wù),后來有人利用遞歸神經(jīng)網(wǎng)絡(luò)完成了句法分析须喂、情感分析和句子表示等多個(gè)任務(wù)吁断,這也為語言表示提供了新的思路趁蕊。

面向自然語言處理的深度學(xué)習(xí)研究工作,目前尚處于起步階段仔役,盡管已有的深度學(xué)習(xí)算法模型如循環(huán)神經(jīng)網(wǎng)絡(luò)掷伙、遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等已經(jīng)有較為顯著的應(yīng)用,但還沒有重大突破又兵。圍繞適合自然語言處理領(lǐng)域的深度學(xué)習(xí)模型構(gòu)建等研究應(yīng)該有著非常廣闊的空間任柜。

在當(dāng)前已有的深度學(xué)習(xí)模型研究中,難點(diǎn)是在模型構(gòu)建過程中參數(shù)的優(yōu)化調(diào)整方面沛厨。主要有深度網(wǎng)絡(luò)層數(shù)宙地、正則化問題及網(wǎng)絡(luò)學(xué)習(xí)速率等,可能的解決方案比如有采用多核機(jī)提升網(wǎng)絡(luò)訓(xùn)練速度逆皮,針對不同應(yīng)用場合宅粥,選擇合適的優(yōu)化算法等。

自然語言處理未來的研究方向

縱觀自然語言處理技術(shù)研究發(fā)展的態(tài)勢和現(xiàn)狀电谣,以下研究方向或問題將可能成為自然語言處理未來研究必須攻克的堡壘:

enter image description here
  1. 詞法和句法分析方面:包括多粒度分詞粹胯、新詞發(fā)現(xiàn)、詞性標(biāo)注等辰企;

  2. 語義分析方面:包括詞義消歧、非規(guī)范文本的語義分析况鸣。其中牢贸,非規(guī)范劃化文本主要指社交平臺(tái)上比較口語化、弱規(guī)范甚至不規(guī)范的短文本镐捧,因其數(shù)據(jù)量巨大和實(shí)時(shí)性而具有研究和應(yīng)用價(jià)值潜索,被廣泛用于輿情監(jiān)控、情感分析和突發(fā)事件發(fā)現(xiàn)等任務(wù)懂酱;

  3. 語言認(rèn)知模型方面:比如使用深度神經(jīng)網(wǎng)絡(luò)處理自然語言竹习,建立更有效、可解釋的語言計(jì)算模型列牺,例如整陌,詞嵌入的發(fā)現(xiàn)。還有目前詞的表示是通過大量的語料庫學(xué)習(xí)得到的瞎领,如何通過基于少量樣本來發(fā)現(xiàn)新詞泌辫、低頻詞也急需探索;

  4. 知識(shí)圖譜方面:如何構(gòu)建能夠融合符號(hào)邏輯和表示學(xué)習(xí)的大規(guī)模高精度的知識(shí)圖譜九默;

  5. 文本分類與聚類方面:通過有監(jiān)督震放、半監(jiān)督和無監(jiān)督學(xué)習(xí),能夠準(zhǔn)確進(jìn)行分類和聚類驼修。當(dāng)下大多數(shù)語料都是沒有標(biāo)簽的殿遂,未來在無監(jiān)督或者半監(jiān)督方面更有需求诈铛;

  6. 信息抽取方面:對于多源異構(gòu)信息,如何準(zhǔn)確進(jìn)行關(guān)系墨礁、事件的抽取等幢竹。信息抽取主要從面向開放域的可擴(kuò)展信息抽取技術(shù)、自學(xué)習(xí)與自適應(yīng)和自演化的信息抽取系統(tǒng)以及面向多源異構(gòu)數(shù)據(jù)的信息融合技術(shù)方向發(fā)展饵溅;

  7. 情感分析方面:包括基于上下文感知的情感分析妨退、跨領(lǐng)域跨語言情感分析、基于深度學(xué)習(xí)的端到端情感分析蜕企、情感解釋咬荷、反諷分析、立場分析等轻掩;

  8. 自動(dòng)文摘方面:如何表達(dá)要點(diǎn)信息幸乒?如何評(píng)估信息單元的重要性?這些都要隨著語義分析唇牧、篇章理解罕扎、深度學(xué)習(xí)等技術(shù)快速發(fā)展;

  9. 信息檢索方面:包括意圖搜索丐重、語義搜索等腔召,都將有可能出現(xiàn)在各種場景的垂直領(lǐng)域,將以知識(shí)化推理為檢索運(yùn)行方式扮惦,以自然語言多媒體交互為手段的智能化搜索與推薦技術(shù)臀蛛;

  10. 自動(dòng)問答方面:包括深度推理問答、多輪問答等各種形式的自動(dòng)問答系統(tǒng)崖蜜;

  11. 機(jī)器翻譯方面:包括面向小數(shù)據(jù)的機(jī)器翻譯浊仆、非規(guī)范文本的機(jī)器翻譯和篇章級(jí)機(jī)器翻譯等。

總結(jié)

本文豫领,從 NLP 的概念出發(fā)抡柿,首先指出了自然語言處理的兩大內(nèi)核:自然語言理解和自然語言生成;然后簡單介紹了國內(nèi)外 NLP 研究發(fā)展現(xiàn)狀等恐;緊接著重點(diǎn)介紹了最常用洲劣、應(yīng)用最廣的自然語言處理中句子級(jí)分析技術(shù),最后在深度學(xué)習(xí)背景下鼠锈,指出了自然語言處理未來可能遇到的挑戰(zhàn)和重點(diǎn)研究方向闪檬,為后期的學(xué)習(xí)提供指導(dǎo)和幫助。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末购笆,一起剝皮案震驚了整個(gè)濱河市粗悯,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌同欠,老刑警劉巖样傍,帶你破解...
    沈念sama閱讀 221,273評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件横缔,死亡現(xiàn)場離奇詭異,居然都是意外死亡衫哥,警方通過查閱死者的電腦和手機(jī)茎刚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來撤逢,“玉大人膛锭,你說我怎么就攤上這事∥萌伲” “怎么了初狰?”我有些...
    開封第一講書人閱讀 167,709評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長互例。 經(jīng)常有香客問我奢入,道長,這世上最難降的妖魔是什么媳叨? 我笑而不...
    開封第一講書人閱讀 59,520評(píng)論 1 296
  • 正文 為了忘掉前任腥光,我火速辦了婚禮,結(jié)果婚禮上糊秆,老公的妹妹穿的比我還像新娘武福。我一直安慰自己,他們只是感情好痘番,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,515評(píng)論 6 397
  • 文/花漫 我一把揭開白布艘儒。 她就那樣靜靜地躺著,像睡著了一般夫偶。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上觉增,一...
    開封第一講書人閱讀 52,158評(píng)論 1 308
  • 那天兵拢,我揣著相機(jī)與錄音,去河邊找鬼逾礁。 笑死说铃,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的嘹履。 我是一名探鬼主播腻扇,決...
    沈念sama閱讀 40,755評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼砾嫉!你這毒婦竟也來了幼苛?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,660評(píng)論 0 276
  • 序言:老撾萬榮一對情侶失蹤焕刮,失蹤者是張志新(化名)和其女友劉穎舶沿,沒想到半個(gè)月后墙杯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,203評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡括荡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,287評(píng)論 3 340
  • 正文 我和宋清朗相戀三年高镐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片畸冲。...
    茶點(diǎn)故事閱讀 40,427評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡嫉髓,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出邑闲,到底是詐尸還是另有隱情算行,我是刑警寧澤,帶...
    沈念sama閱讀 36,122評(píng)論 5 349
  • 正文 年R本政府宣布监憎,位于F島的核電站纱意,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏鲸阔。R本人自食惡果不足惜偷霉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,801評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望褐筛。 院中可真熱鬧类少,春花似錦、人聲如沸渔扎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽晃痴。三九已至残吩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間倘核,已是汗流浹背泣侮。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留紧唱,地道東北人活尊。 一個(gè)月前我還...
    沈念sama閱讀 48,808評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像漏益,于是被迫代替她去往敵國和親蛹锰。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,440評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容