宗成慶自然語言理解筆記 01 緒論

1.1 基本概念

  • 自然語言指人類使用的語言鲫售,如漢語、英語等该肴。
  • 語言的兩個基本屬性:文字和聲音情竹。
  • 自然語言處理

或稱自然語言理解(Natural Language Understanding, NLU)。
“自然語言處理(Natural Language Processing, NLP)就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術(shù)匀哄∏匦В” ------ 馮志偉《自然語言的計算機處理》
從微觀上講,指從自然語言到機器內(nèi)部之間的一種映射涎嚼;從宏觀上講阱州,指機器能夠執(zhí)行人類所期望的某些語言功能,包括問答系統(tǒng)法梯、機器翻譯苔货、從材料中獲取摘要等。

1.2 自然語言理解研究的內(nèi)容

  • 機器翻譯(Machine translation, MT):實現(xiàn)一種語言到另一種語言的自動翻譯立哑。
  • 信息檢索(Information Retrieval, IR):利用計算機系統(tǒng)從大量文檔資源中找到符合用戶需要的相關(guān)信息夜惭。
  • 自動文摘(Automatic Summarization/Automatic Abstracting):將原文檔的主要內(nèi)容或某方面的信息自動提取出來,并形成原文檔的摘要或縮寫铛绰。
  • 文檔分類(Document Categorization):文檔分類也叫文本自動分類(Text Categorization/Text Classification)或信息分類(Information Categorization/Classification)诈茧,其目的就是利用計算機系統(tǒng)對大量的文檔按照一定的分類標準(例如,根據(jù)主題或內(nèi)容劃分等)實現(xiàn)自動歸類至耻。
  • 問答系統(tǒng)(Question Answering System):通過計算機系統(tǒng)對人提出的問題的理解若皱,利用自動推理等手段,在有關(guān)知識資源中自動求解答案并做出相應(yīng)的回答尘颓。問答技術(shù)有時與語音技術(shù)和多模態(tài)輸入/輸出技術(shù),以及人機交互技術(shù)等相結(jié)合晦譬,構(gòu)成人機對話系統(tǒng)疤苹。
  • 信息過濾(Information Filtering):通過計算機系統(tǒng)自動識別和過濾那些滿足特定條件的文檔信息。
  • 語言教學(xué)(Language Teaching):借助計算機輔助教學(xué)工具敛腌,進行語言教學(xué)卧土、操練和輔導(dǎo)等惫皱。
  • 文字識別(Character Recognition):通過計算機系統(tǒng)對印刷體或手寫體等文字進行自動識別,將其轉(zhuǎn)換成計算機可以處理的電子文本尤莺。
  • 文字編輯和自動校對(Automatic Proofreading):對文字拼寫旅敷、用詞、甚至語法颤霎、文檔格式等進行自動檢查媳谁、校對和編排。
  • 語音識別(Speech Recognition):將輸入計算機的語音信號識別轉(zhuǎn)換成書面語表示友酱。語音識別也稱自動語音識別(Automatic Speech Recognition, ASR)晴音。
  • 語音合成(Text to Speech/Speech Synthesis):將書面文本自動轉(zhuǎn)換成對應(yīng)的語音表征。
  • 說話人識別/認同/驗證(Speaker Recognition/Identification/Verification):對一言語樣品做聲學(xué)分析缔杉,依此推斷(確定或驗證)說話人的身份锤躁。
    ......

1.3 自然語言理解研究的基本問題

  • 語音學(xué)(Phonetics)問題:研究詞及其語音的關(guān)聯(lián)。
  • 形態(tài)學(xué)(Morphology)問題:研究詞是如何由意義的基本單位即詞素(morphemes)構(gòu)成的或详。
  • 語法學(xué)(Syntax)問題:研究句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子序列的規(guī)則系羞。
  • 語義學(xué)(Semantics)問題: 研究如何從一個語句中詞的意義,以及這些詞在該語句中句法結(jié)構(gòu)中的作用來推導(dǎo)出該語句的意義霸琴。
  • 語用學(xué)(Pragmatics)問題:研究在不同上下文中的語句的應(yīng)用觉啊,以及上下文對語句理解所產(chǎn)生的影響。從狹隘的語言學(xué)觀點看沈贝,語用學(xué)處理的是語言結(jié)構(gòu)中有形式體現(xiàn)的那些語境杠人。相反,語用學(xué)最寬泛的定義是研究語義學(xué)未能涵蓋的那些意義宋下。

1.4 自然語言理解面臨的困難

  • 自然語言中大量存在的歧義(ambiguity)現(xiàn)象嗡善,包括結(jié)構(gòu)歧義、語義歧義等学歧。
  • 自然語言中存在未知的語言現(xiàn)象罩引,包括新的詞匯,例如枝笨,“非典” 袁铐、專業(yè)術(shù)語、外來語横浑、人名等剔桨;新的含義,例如徙融,窗口洒缀、奔騰、農(nóng)民等;新的用法和語句結(jié)構(gòu)等树绩,尤其在口語中或部分網(wǎng)絡(luò)語言中萨脑,不斷出現(xiàn)一些“非規(guī)范的”新的語句結(jié)構(gòu)。

1.5 不同語言的差異

  • 不同的語系
    • 孤立語(分析語)
      形態(tài)變化少饺饭,語法關(guān)系靠詞序和虛詞表示渤早,如漢語。
    • 曲折語:用詞的形態(tài)變化表示語法關(guān)系瘫俊,如英語鹊杖。
    • 黏著語:詞內(nèi)有專門表示語法意義的附加成分,詞根或詞干與附加成分的結(jié)合不緊密军援,如日語仅淑。
  • 不同的語言單位
    • 漢語:漢字(單音節(jié)、無空格)
    • 英語:英語(多音節(jié)胸哥、有空格)
    • 日語:字和詞(多音節(jié)涯竟、無空格)
  • 不同的語法
  • 語義的差異
  • 不同的文化背景

1.6 自然語言理解研究的基本方法

  • 理性主義與經(jīng)驗主義方法的哲學(xué)分野之一:對語言知識來源的不同認識
    • 理性主義認為:人的很大一部分語言知識是與生俱來的,由遺傳決定的空厌。Noam Chomsky的內(nèi)在語言官能(Innate Language Faculty)理論被廣泛接受庐船。
      人工編匯初始語言知識 + 推理系統(tǒng) -> 自然語言處理系統(tǒng)
      1960s – 1980s中期
    • 經(jīng)驗主義認為:人的語言知識是通過感觀輸入,經(jīng)過一些簡單的聯(lián)想(association)與通用化(generalization)的操作而得到的嘲更。
      大量的語言數(shù)據(jù)中獲得語言的知識結(jié)構(gòu)筐钟。
      1920s - 1950s,1980s中期 -
  • 理性主義與經(jīng)驗主義方法的哲學(xué)分野之二:研究對象的差異
    • 理性主義方法:研究人的語言知識結(jié)構(gòu)(語言能力赋朦, language competence)篓冲,實際的語言數(shù)據(jù)(語言行為,language performance)只提供了這種內(nèi)在知識的間接證據(jù)宠哄。
    • 經(jīng)驗主義方法:直接研究這些實際的語言數(shù)據(jù)壹将。
  • 理性主義與經(jīng)驗主義方法的哲學(xué)分野之三:運用不同的理論
    • 理性主義:通常基于Chomsky的語言原則毛嫉,通過語言所必須遵守的一系列原則來描述語言诽俯。
    • 經(jīng)驗主義:通常是基于Shannon的信息論。
  • 理性主義與經(jīng)驗主義方法的哲學(xué)分野之四:采用不同的處理方法
    • 理性主義:通常通過一些特殊的語句或語言現(xiàn)象的研究來得到對人的語言能力的認識承粤,而這些語句和語言現(xiàn)象在實際的應(yīng)用中并不常見暴区。
    • 經(jīng)驗主義:偏重于對大規(guī)模語言數(shù)據(jù)中人們所實際使用的普通語句的統(tǒng)計。
  • 理性主義方法與經(jīng)驗主義方法的融合
    符號智能 + 計算智能
    理性主義研究方法 - 符號處理系統(tǒng)
    經(jīng)驗主義研究方法 - 基于語言數(shù)據(jù)的計算方法
    理性主義與經(jīng)驗主義的合謀 - 融合方法
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末辛臊,一起剝皮案震驚了整個濱河市仙粱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌浪讳,老刑警劉巖缰盏,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異淹遵,居然都是意外死亡口猜,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門透揣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來济炎,“玉大人,你說我怎么就攤上這事辐真⌒肷校” “怎么了?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵侍咱,是天一觀的道長耐床。 經(jīng)常有香客問我,道長楔脯,這世上最難降的妖魔是什么撩轰? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮昧廷,結(jié)果婚禮上堪嫂,老公的妹妹穿的比我還像新娘。我一直安慰自己木柬,他們只是感情好皆串,可當我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著眉枕,像睡著了一般恶复。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上速挑,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天谤牡,我揣著相機與錄音,去河邊找鬼梗摇。 笑死拓哟,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的伶授。 我是一名探鬼主播断序,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼糜烹!你這毒婦竟也來了违诗?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤疮蹦,失蹤者是張志新(化名)和其女友劉穎诸迟,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡阵苇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年壁公,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片绅项。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡紊册,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出快耿,到底是詐尸還是另有隱情囊陡,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布掀亥,位于F島的核電站撞反,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏搪花。R本人自食惡果不足惜遏片,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望鳍侣。 院中可真熱鬧丁稀,春花似錦、人聲如沸倚聚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽惑折。三九已至授账,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間惨驶,已是汗流浹背白热。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留粗卜,地道東北人屋确。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像续扔,于是被迫代替她去往敵國和親攻臀。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 自然語言理解(NLU)概念淺析 近來纱昧,人工智能(AI)行業(yè)利好消息不斷刨啸,各大巨頭都在積極拼搶這個領(lǐng)域的人才,筆者最...
    機器人2025閱讀 10,242評論 2 10
  • 金迷紙醉识脆,杯酌換盞设联,歌舞升平善已。 一座供眾人嬉樂的輝煌“宮殿”,歡樂天堂离例,它的誕生其實只為那一人——那唯一一個被...
    熠予翩翩閱讀 654評論 0 3
  • 志同道合的朋友難找换团,志同道合的跑友那完全是靠緣分了。跑圈摸爬滾打了混了幾年粘招,冥冥認識了一群嚴肅跑者啥寇,七個善于...
    倩1982閱讀 1,634評論 18 6
  • 人生就是一場學(xué)習(xí)與修煉偎球,戀愛洒扎,婚姻,生活甚至學(xué)做父母衰絮,都是漫長而不斷摸索的學(xué)習(xí)袍冷,有人中途敗下陣下,放棄了猫牡;有人堅持...
    鈴兒_e1d0閱讀 726評論 0 4
  • 真理是兩面的胡诗。許多時候,很多道理不過只說到真理的一面淌友。例如我們知道煌恢,十字架的功效有兩面的講究,一面它除去我們的罪(...
    可樂_f006閱讀 1,064評論 0 0