1.1 基本概念
- 自然語言指人類使用的語言鲫售,如漢語、英語等该肴。
- 語言的兩個基本屬性:文字和聲音情竹。
-
自然語言處理
或稱自然語言理解(Natural Language Understanding, NLU)。
“自然語言處理(Natural Language Processing, NLP)就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術(shù)匀哄∏匦В” ------ 馮志偉《自然語言的計算機處理》
從微觀上講,指從自然語言到機器內(nèi)部之間的一種映射涎嚼;從宏觀上講阱州,指機器能夠執(zhí)行人類所期望的某些語言功能,包括問答系統(tǒng)法梯、機器翻譯苔货、從材料中獲取摘要等。
1.2 自然語言理解研究的內(nèi)容
- 機器翻譯(Machine translation, MT):實現(xiàn)一種語言到另一種語言的自動翻譯立哑。
- 信息檢索(Information Retrieval, IR):利用計算機系統(tǒng)從大量文檔資源中找到符合用戶需要的相關(guān)信息夜惭。
- 自動文摘(Automatic Summarization/Automatic Abstracting):將原文檔的主要內(nèi)容或某方面的信息自動提取出來,并形成原文檔的摘要或縮寫铛绰。
- 文檔分類(Document Categorization):文檔分類也叫文本自動分類(Text Categorization/Text Classification)或信息分類(Information Categorization/Classification)诈茧,其目的就是利用計算機系統(tǒng)對大量的文檔按照一定的分類標準(例如,根據(jù)主題或內(nèi)容劃分等)實現(xiàn)自動歸類至耻。
- 問答系統(tǒng)(Question Answering System):通過計算機系統(tǒng)對人提出的問題的理解若皱,利用自動推理等手段,在有關(guān)知識資源中自動求解答案并做出相應(yīng)的回答尘颓。問答技術(shù)有時與語音技術(shù)和多模態(tài)輸入/輸出技術(shù),以及人機交互技術(shù)等相結(jié)合晦譬,構(gòu)成人機對話系統(tǒng)疤苹。
- 信息過濾(Information Filtering):通過計算機系統(tǒng)自動識別和過濾那些滿足特定條件的文檔信息。
- 語言教學(xué)(Language Teaching):借助計算機輔助教學(xué)工具敛腌,進行語言教學(xué)卧土、操練和輔導(dǎo)等惫皱。
- 文字識別(Character Recognition):通過計算機系統(tǒng)對印刷體或手寫體等文字進行自動識別,將其轉(zhuǎn)換成計算機可以處理的電子文本尤莺。
- 文字編輯和自動校對(Automatic Proofreading):對文字拼寫旅敷、用詞、甚至語法颤霎、文檔格式等進行自動檢查媳谁、校對和編排。
- 語音識別(Speech Recognition):將輸入計算機的語音信號識別轉(zhuǎn)換成書面語表示友酱。語音識別也稱自動語音識別(Automatic Speech Recognition, ASR)晴音。
- 語音合成(Text to Speech/Speech Synthesis):將書面文本自動轉(zhuǎn)換成對應(yīng)的語音表征。
- 說話人識別/認同/驗證(Speaker Recognition/Identification/Verification):對一言語樣品做聲學(xué)分析缔杉,依此推斷(確定或驗證)說話人的身份锤躁。
......
1.3 自然語言理解研究的基本問題
- 語音學(xué)(Phonetics)問題:研究詞及其語音的關(guān)聯(lián)。
- 形態(tài)學(xué)(Morphology)問題:研究詞是如何由意義的基本單位即詞素(morphemes)構(gòu)成的或详。
- 語法學(xué)(Syntax)問題:研究句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子序列的規(guī)則系羞。
- 語義學(xué)(Semantics)問題: 研究如何從一個語句中詞的意義,以及這些詞在該語句中句法結(jié)構(gòu)中的作用來推導(dǎo)出該語句的意義霸琴。
- 語用學(xué)(Pragmatics)問題:研究在不同上下文中的語句的應(yīng)用觉啊,以及上下文對語句理解所產(chǎn)生的影響。從狹隘的語言學(xué)觀點看沈贝,語用學(xué)處理的是語言結(jié)構(gòu)中有形式體現(xiàn)的那些語境杠人。相反,語用學(xué)最寬泛的定義是研究語義學(xué)未能涵蓋的那些意義宋下。
1.4 自然語言理解面臨的困難
- 自然語言中大量存在的歧義(ambiguity)現(xiàn)象嗡善,包括結(jié)構(gòu)歧義、語義歧義等学歧。
- 自然語言中存在未知的語言現(xiàn)象罩引,包括新的詞匯,例如枝笨,“非典” 袁铐、專業(yè)術(shù)語、外來語横浑、人名等剔桨;新的含義,例如徙融,窗口洒缀、奔騰、農(nóng)民等;新的用法和語句結(jié)構(gòu)等树绩,尤其在口語中或部分網(wǎng)絡(luò)語言中萨脑,不斷出現(xiàn)一些“非規(guī)范的”新的語句結(jié)構(gòu)。
1.5 不同語言的差異
- 不同的語系
- 孤立語(分析語)
形態(tài)變化少饺饭,語法關(guān)系靠詞序和虛詞表示渤早,如漢語。 - 曲折語:用詞的形態(tài)變化表示語法關(guān)系瘫俊,如英語鹊杖。
- 黏著語:詞內(nèi)有專門表示語法意義的附加成分,詞根或詞干與附加成分的結(jié)合不緊密军援,如日語仅淑。
- 孤立語(分析語)
- 不同的語言單位
- 漢語:漢字(單音節(jié)、無空格)
- 英語:英語(多音節(jié)胸哥、有空格)
- 日語:字和詞(多音節(jié)涯竟、無空格)
- 不同的語法
- 語義的差異
- 不同的文化背景
1.6 自然語言理解研究的基本方法
- 理性主義與經(jīng)驗主義方法的哲學(xué)分野之一:對語言知識來源的不同認識
- 理性主義認為:人的很大一部分語言知識是與生俱來的,由遺傳決定的空厌。Noam Chomsky的內(nèi)在語言官能(Innate Language Faculty)理論被廣泛接受庐船。
人工編匯初始語言知識 + 推理系統(tǒng) -> 自然語言處理系統(tǒng)
1960s – 1980s中期 - 經(jīng)驗主義認為:人的語言知識是通過感觀輸入,經(jīng)過一些簡單的聯(lián)想(association)與通用化(generalization)的操作而得到的嘲更。
大量的語言數(shù)據(jù)中獲得語言的知識結(jié)構(gòu)筐钟。
1920s - 1950s,1980s中期 -
- 理性主義認為:人的很大一部分語言知識是與生俱來的,由遺傳決定的空厌。Noam Chomsky的內(nèi)在語言官能(Innate Language Faculty)理論被廣泛接受庐船。
- 理性主義與經(jīng)驗主義方法的哲學(xué)分野之二:研究對象的差異
- 理性主義方法:研究人的語言知識結(jié)構(gòu)(語言能力赋朦, language competence)篓冲,實際的語言數(shù)據(jù)(語言行為,language performance)只提供了這種內(nèi)在知識的間接證據(jù)宠哄。
- 經(jīng)驗主義方法:直接研究這些實際的語言數(shù)據(jù)壹将。
- 理性主義與經(jīng)驗主義方法的哲學(xué)分野之三:運用不同的理論
- 理性主義:通常基于Chomsky的語言原則毛嫉,通過語言所必須遵守的一系列原則來描述語言诽俯。
- 經(jīng)驗主義:通常是基于Shannon的信息論。
- 理性主義與經(jīng)驗主義方法的哲學(xué)分野之四:采用不同的處理方法
- 理性主義:通常通過一些特殊的語句或語言現(xiàn)象的研究來得到對人的語言能力的認識承粤,而這些語句和語言現(xiàn)象在實際的應(yīng)用中并不常見暴区。
- 經(jīng)驗主義:偏重于對大規(guī)模語言數(shù)據(jù)中人們所實際使用的普通語句的統(tǒng)計。
- 理性主義方法與經(jīng)驗主義方法的融合
符號智能 + 計算智能
理性主義研究方法 - 符號處理系統(tǒng)
經(jīng)驗主義研究方法 - 基于語言數(shù)據(jù)的計算方法
理性主義與經(jīng)驗主義的合謀 - 融合方法