64自然語言處理底層技術(shù)實(shí)現(xiàn)及應(yīng)用--自然語言處理簡介

自然語言處理簡介

自然語言處理簡單介紹

語言是人類區(qū)別于其他動(dòng)物的本質(zhì)特征孩等。因此涉馅,語言也可以看做是智能的一種體現(xiàn)旭蠕。在歷史上,人類為了信息交流的方便以及流傳亭枷,發(fā)明了各式各樣的文字用于記錄袭艺。而且這些文字在不斷的改進(jìn)中傳承至今。
但是叨粘,隨著計(jì)算機(jī)技術(shù)的發(fā)展猾编,使得計(jì)算機(jī)在某些任務(wù)的有著超常的表現(xiàn)。這使得科學(xué)家們開始思考宣鄙,能不能讓機(jī)器也能像人類一樣理解自然語言袍镀,并使用計(jì)算機(jī)幫助人類完成相關(guān)的任務(wù)默蚌?也正是這樣的疑問推動(dòng)了自然語言處理技術(shù)的誕生冻晤。
如果你之前有學(xué)過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)相關(guān)的課程,那么相信你對自然語言處理應(yīng)該不會(huì)很陌生绸吸。下圖顯示了當(dāng)前人工智能三個(gè)比較重要的研究方向鼻弧。從下圖也可以看出自然語言處理是人工智能的一個(gè)重要分支。

image.png

與語音識(shí)別锦茁、計(jì)算機(jī)視覺等方向不同攘轩,自然語言處理的研究對象是語言文本。而文本信息通常都是 非結(jié)構(gòu)化 的存儲(chǔ)方式码俩,再加上語言本身擁有的多樣性度帮、靈活性和廣泛性等特性。使得自然語言處理任務(wù)的難度相對于語音識(shí)別、計(jì)算機(jī)視覺等領(lǐng)域要大很多笨篷。
這也使得自然語言處理在許多初學(xué)者面前留下了一個(gè)非惩啵「高冷」的印象。不過率翅,不用擔(dān)心练俐。本系列課程將會(huì)為你揭開自然語言處理「神秘的面紗」。
先來看看自然語言處理的發(fā)展歷史冕臭。

自然語言處理發(fā)展歷史

在自然語言處理的發(fā)展過程中腺晾,主要存在兩種觀點(diǎn),如下:
理性主義方法: 該方法從自然語言的語法角度出發(fā)辜贵,是通過制定各種語法規(guī)則來解決自然語言處理問題悯蝉。
經(jīng)驗(yàn)主義方法: 該方法從統(tǒng)計(jì)的角度出發(fā),用數(shù)學(xué)公式來解決自然語言處理問題念颈。

這兩種方法都在自然語言處理中扮演著不可或缺的角色泉粉。在自然語言處理的發(fā)展歷史上,也因?yàn)檫@兩種方法將許多研究者劃分成為了兩種不同的陣營榴芳。自然語言的發(fā)展歷程可以歸納如下幾個(gè)時(shí)期:


image.png

上圖顯示了自然語言處理的大致發(fā)展歷程嗡靡。你可能會(huì)覺得有點(diǎn)懵,因?yàn)樯蠄D擁有太多的專業(yè)術(shù)語窟感。不過這也沒有關(guān)系讨彼,在后續(xù)的課程中這些術(shù)語會(huì)陸續(xù)的講到。這里也只需了解個(gè)大概柿祈,想了解更多哈误,也可以去閱讀宗成慶老師編寫的《統(tǒng)計(jì)自然語言處理》。接下來躏嚎,介紹自然語言處理常用的底層處理技術(shù)蜜自。

自然語言處理底層技術(shù)

通常情況下,自然語言處理的整體技術(shù)框架可表示為如下圖所示卢佣。由圖可知重荠,自然語言處理可以大致分為底層技術(shù)和應(yīng)用技術(shù)。底層技術(shù)主要是為了后續(xù)各種各樣的任務(wù)做預(yù)處理虚茶。而應(yīng)用技術(shù)主要解決的是某個(gè)具體的任務(wù)需求戈鲁。

image.png

接下來介紹基礎(chǔ)層常用的技術(shù)。
中文分詞
顧名思義嘹叫,中文分詞指的是將漢語文本中的詞與詞之間添加空格或者其他邊界標(biāo)記的一種方法婆殿。不同于英文,英文以空格作為天然的分隔符罩扇,而中文的詞語之間沒有分隔婆芦。在許多的自然處理任務(wù)中,都會(huì)將詞作為最小的基本單位,因此在執(zhí)行其它任務(wù)之前消约,需要先要對漢語句子進(jìn)行分詞癌压。
中文分詞是自然語言處理最基礎(chǔ)也是最重要的工作。分詞結(jié)果的好壞也會(huì)直接影響到后續(xù)的處理荆陆。一個(gè)簡單的中文分詞例子如下:
image.png

詞性標(biāo)注
詞性標(biāo)注同分詞一樣滩届,都屬于底層處理技術(shù)。主要是為了后續(xù)的句法分析被啼、信息抽取等任務(wù)打下基礎(chǔ)帜消。詞性標(biāo)注指的是將每個(gè)詞的詞性標(biāo)注出來。
在英文中浓体,單詞的詞性可以借助于單詞的詞綴來進(jìn)行判斷泡挺。例如,名稱的后綴一般有 -tion 的形式命浴。而對于漢語來說娄猫,則沒有這些語態(tài)或時(shí)態(tài)的概念。此外生闲,漢語存在一次多性的問題非常嚴(yán)重媳溺,同一個(gè)詞在不同的語境里擁有著不同的詞性。因此漢語詞性標(biāo)注往往要比英文難很多碍讯。
下面是一個(gè)詞性標(biāo)注例子悬蔽。其中,n 表示名詞捉兴,adv 表示副詞蝎困,v 表示動(dòng)詞,prep 表示助詞倍啥,num 表示數(shù)詞禾乘。
image.png

命名實(shí)體識(shí)別
命名實(shí)體一般指的是專有名詞,例如人名虽缕、地名始藕、機(jī)構(gòu)名、專有名詞等彼宠。而命名實(shí)體識(shí)別的任務(wù)就是在給定的文本信息中將這些專有名詞識(shí)別出來鳄虱。以便于后續(xù)的分析弟塞。命名實(shí)體識(shí)別是信息提取凭峡、問答系統(tǒng)、機(jī)器翻譯等應(yīng)用的底層技術(shù)决记。
下面是一個(gè)命名體識(shí)別是例子摧冀。在該例子中,主要提取輸入文本的時(shí)間、地點(diǎn)索昂、人物等信息建车。
image.png

句法分析
同前面所講的技術(shù)一樣,句法分析也是自然語言處理中的關(guān)鍵底層技術(shù)之一椒惨。句法分析基本任務(wù)是確定句子的句法結(jié)構(gòu)或者句子中詞匯之間的依存關(guān)系缤至。例如,假設(shè)我們得到這樣一個(gè)句子:
image.png

句法分析則是分析出該句子中奧巴馬與美國的關(guān)系康谆,奧巴馬與黑人的關(guān)系领斥,奧巴馬與總統(tǒng)的關(guān)系等信息。
語義分析
在自然語言處理的過程中沃暗,可能會(huì)遇到一詞多義的情況月洛。例如這句話:從小學(xué)起,這句話可以理解為:從\小\學(xué)\起孽锥。也可以理解為:從\小學(xué)\起嚼黔。這句話具體是哪一個(gè)意思就需要根據(jù)具體語境來判斷。所以語義分析的任務(wù)就是消除這些歧義惜辑。
詞嵌入
目前主流的自然語言處理算法都是基于統(tǒng)計(jì)的方法唬涧,例如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等盛撑。而大多數(shù)的機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)算法只能處理數(shù)值型的輸入數(shù)據(jù)爵卒。而自然語言一個(gè)種典型的符號(hào)型數(shù)據(jù)。要想使用機(jī)器學(xué)習(xí)方法處理自然語言數(shù)據(jù)撵彻,就需要對自然語言數(shù)據(jù)進(jìn)行轉(zhuǎn)換钓株,將其轉(zhuǎn)成為數(shù)值型的數(shù)據(jù)。而詞嵌入就是這樣一種方法陌僵。其將文本數(shù)據(jù)中的詞都映射到一個(gè)向量空間轴合,用一個(gè)向量來表示一個(gè)詞。

自然語言處理應(yīng)用技術(shù)

前面主要講解了自然語言處理的底層技術(shù)碗短。它們雖然不是自然語言處理的最終目標(biāo)受葛。但卻是整個(gè)自然語言處理過程中不可或缺的一部分。接下來偎谁,我們來講解目前自然語言處理的一些應(yīng)用應(yīng)用場景或任務(wù)总滩。
文本分類
文本分類是自然語言處理最常見也是最簡單的應(yīng)用場景。文本分類就是將多個(gè)文檔按某種屬性來進(jìn)行劃分巡雨。例如闰渔,圖書館會(huì)把人文社科這一類的書籍放到一個(gè)區(qū)域,把科學(xué)技術(shù)類的書籍放到另一個(gè)區(qū)域铐望,這樣既方便館內(nèi)工作人員整理冈涧,也方便讀者查閱茂附。再比如說下圖所示的郵箱常用的垃圾郵件分類功能,也是一個(gè)常用的文本分類應(yīng)用場景督弓。

image.png

與計(jì)算機(jī)視覺里的手寫數(shù)字體識(shí)別一樣营曼,文本分類也是一個(gè)典型的分類任務(wù)。因此文本分類任務(wù)也可以使用大多數(shù)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)分類算法來進(jìn)行分類愚隧。
文本摘要
摘要往往指的是一篇文本的主題內(nèi)容蒂阱,而文本自動(dòng)摘要的任務(wù)就是讓機(jī)器自行的從大量的文本信息中提取重要或者關(guān)鍵的內(nèi)容。文本摘要也可以理解成為一種數(shù)據(jù)壓縮任務(wù)狂塘。其流程如下圖所示蒜危,可以根據(jù)需要生成不同的文摘。
image.png

文本自動(dòng)摘要主要有三種方法睹耐,如下:
抽取式摘要:直接從原文中抽取已有的句子組成摘要辐赞。
壓縮式摘要:抽取并簡化原文中的重要句子構(gòu)成文摘。
理解式摘要:改寫或重新組織原文內(nèi)容形成最終文摘硝训。

文本自動(dòng)摘要有非常多的應(yīng)用場景响委,如下:
自動(dòng)報(bào)告生成
新聞標(biāo)題生成
搜索結(jié)果預(yù)覽
為下游任務(wù)提供支持

情感分析
情感分析也叫觀點(diǎn)提取,主題分析窖梁,情感挖掘等赘风,其分析的目的是提取人們對一些事物或某個(gè)人的看法和態(tài)度,來發(fā)現(xiàn)存在潛在的問題纵刘,以便用于改進(jìn)或預(yù)測邀窃。例如,可以通過對外賣評價(jià)情感分析來改進(jìn)外賣服務(wù)假哎。

目前情感分析主要有兩種方法瞬捕,如下:
基于情感詞典的傳統(tǒng)方法:該方法先定義一個(gè)情感詞典。例如舵抹,「很好」肪虎、「不錯(cuò)」標(biāo)記為積極的態(tài)度。而將「差」惧蛹、「垃圾」等詞標(biāo)記為消極的態(tài)度扇救。然后統(tǒng)計(jì)一個(gè)句子中正面和負(fù)面情感詞的詞數(shù),通過比較情感詞的數(shù)量來判斷句子的整體感情色彩香嗓。
基于深度學(xué)習(xí)的方法:該方法主要使用循環(huán)神經(jīng)網(wǎng)絡(luò)來對句子進(jìn)行信息提取迅腔,然后通過分類的方式來判斷情感色彩。

情感分析的應(yīng)用場景也非常廣泛靠娱,如下:
個(gè)性化推薦系統(tǒng)
智能搜索
產(chǎn)品反饋
業(yè)務(wù)安全

機(jī)器翻譯
機(jī)器翻譯也稱為自動(dòng)翻譯沧烈,指的是讓機(jī)器能夠?qū)⒁恢弊匀徽Z言轉(zhuǎn)換成為另一種自然語言的過程。機(jī)器翻譯是最早的自然語言處理任務(wù)之一饱岸。在計(jì)算機(jī)誕生之時(shí)掺出,就有科學(xué)家提出使用計(jì)算機(jī)來代替人工進(jìn)行翻譯。而這個(gè)問題也一直延續(xù)到今天苫费,仍然是自然語言里面一個(gè)困難重重的任務(wù)汤锨。

image.png

目前機(jī)器翻譯主要用兩種算法,如下:
基于實(shí)例的機(jī)器翻譯:其核心思想是構(gòu)建一個(gè)對照實(shí)例庫百框。例如闲礼,提前構(gòu)建好英文和中文的翻譯對照庫。通過查詢對照得到翻譯結(jié)果铐维。
基于統(tǒng)計(jì)的機(jī)器翻譯:該方法將翻譯描述為一個(gè)數(shù)學(xué)的過程柬泽。也就是說,所求的是在給定輸入語義的條件下嫁蛇,輸出語言的最大概率锨并。

自動(dòng)問答
自動(dòng)問答系統(tǒng)有時(shí)候也稱為聊天機(jī)器人,是自然語言處理中一個(gè)比較熱門的方向睬棚。具體來說第煮,指的是用戶以自然語言的形式向機(jī)器提出問題,機(jī)器系統(tǒng)依據(jù)對問題的分析抑党,從各種數(shù)據(jù)資源中自動(dòng)找出準(zhǔn)確的答案來回答用戶包警。
目前,自動(dòng)問答主要應(yīng)用于智能客服底靠,例如淘寶的客戶服務(wù)害晦。而且,自動(dòng)問答的技術(shù)也日趨成熟暑中,也有許多公司開發(fā)出自己的聊天機(jī)器人壹瘟。例如,微軟的 小冰機(jī)器人鳄逾,百度公司的小度機(jī)器人等俐筋。

image.png

上圖顯示的是微軟小冰的聊天截圖。如果沒有提前告訴你這是機(jī)器自動(dòng)回復(fù)的聊天严衬。你會(huì)不會(huì)認(rèn)為對方是一個(gè)真實(shí)的人呢澄者?
信息檢索
索引通常指的是搜索的指引,而信息檢索則是從海量的信息找到我們想要的信息请琳。目前粱挡,信息檢索最常見的應(yīng)用情景應(yīng)該就是搜索引擎了。例如俄精,通過百度搜索關(guān)鍵字「藍(lán)橋云課」询筏,就可以查詢出我們想要的信息。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末竖慧,一起剝皮案震驚了整個(gè)濱河市嫌套,隨后出現(xiàn)的幾起案子逆屡,更是在濱河造成了極大的恐慌,老刑警劉巖踱讨,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件魏蔗,死亡現(xiàn)場離奇詭異,居然都是意外死亡痹筛,警方通過查閱死者的電腦和手機(jī)莺治,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來帚稠,“玉大人谣旁,你說我怎么就攤上這事∽淘纾” “怎么了榄审?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長杆麸。 經(jīng)常有香客問我瘟判,道長,這世上最難降的妖魔是什么角溃? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任拷获,我火速辦了婚禮,結(jié)果婚禮上减细,老公的妹妹穿的比我還像新娘匆瓜。我一直安慰自己,他們只是感情好未蝌,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布驮吱。 她就那樣靜靜地躺著,像睡著了一般萧吠。 火紅的嫁衣襯著肌膚如雪左冬。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天纸型,我揣著相機(jī)與錄音拇砰,去河邊找鬼。 笑死狰腌,一個(gè)胖子當(dāng)著我的面吹牛除破,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播琼腔,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼瑰枫,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了丹莲?” 一聲冷哼從身側(cè)響起光坝,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤尸诽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后盯另,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體性含,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年土铺,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了胶滋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片板鬓。...
    茶點(diǎn)故事閱讀 38,622評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡悲敷,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出俭令,到底是詐尸還是另有隱情后德,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布抄腔,位于F島的核電站瓢湃,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏赫蛇。R本人自食惡果不足惜绵患,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望悟耘。 院中可真熱鬧落蝙,春花似錦、人聲如沸暂幼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽旺嬉。三九已至管行,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間邪媳,已是汗流浹背捐顷。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留雨效,地道東北人套菜。 一個(gè)月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像设易,于是被迫代替她去往敵國和親逗柴。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容