自然語(yǔ)言處理與機(jī)器翻譯FAQ

博客搬家以來(lái)霎箍,一直想為“我愛(ài)自然語(yǔ)言處理”寫(xiě)個(gè)自然語(yǔ)言與機(jī)器翻譯的通俗介紹。今天無(wú)意間發(fā)現(xiàn)了臺(tái)灣張景新老師寫(xiě)的一篇相關(guān)文章澡为,寫(xiě)得通俗有趣漂坏,就搬到這里來(lái)了,換了個(gè)合適的名字媒至,將繁體轉(zhuǎn)換為簡(jiǎn)體顶别,消減了一些和博客內(nèi)容不相關(guān)的,并將一些繁體中文術(shù)語(yǔ)改為簡(jiǎn)體中文術(shù)語(yǔ)拒啰。

1驯绎、什么是“自然語(yǔ)言“(NL:Natural Languages)

?自然語(yǔ)言就是我們一般人平常所用的, 所寫(xiě)的中文, 英文, 日文, 和真主阿拉所用的阿拉伯文等語(yǔ)言文字 (廣義來(lái)說(shuō), 也包含語(yǔ)音).

?所謂的 "自然" 是相對(duì)于 "人工" 或 "程序" 語(yǔ)言 (Artificial or Programming Languages) 而言.

?用程序語(yǔ)言寫(xiě)合法的程序, 一定要遵循規(guī)定的語(yǔ)法, 要不然, Compiler 就會(huì)說(shuō)你的程序 illegal, 有 syntax error 等等. 這 Compiler 還真煩!!

?講媽媽教的話(huà), 或?qū)懳恼? 就不一定要那么規(guī)規(guī)矩矩, 偶而出現(xiàn)火星文也很酷啊!!

?不過(guò), 酷歸酷, 這種特性也讓自然語(yǔ)言處理變得很難.

2、什么是“自然語(yǔ)言處理“(What is Natural Language Processing / NLP)

?就處理的型態(tài)來(lái)講, 大概可分為三類(lèi): 分析, 轉(zhuǎn)換及生成.

?分析(Analysis): 就是通過(guò)統(tǒng)計(jì)模型谋旦,推理 (Statistical Models, Inferences), 模式識(shí)別/分類(lèi) (Pattern Recognition/Classification), 機(jī)器學(xué)習(xí) (Machine Learning) 等特異功能, 去 "分析" 文字的內(nèi)涵, 結(jié)構(gòu), 了解文件在講什么.

?轉(zhuǎn)換 (Transfer): 分析之后, 可以將他 "轉(zhuǎn)換" 成另一種形式的有用信息, 作進(jìn)一步的應(yīng)用. 比如轉(zhuǎn)到另一種語(yǔ)言的深層結(jié)構(gòu) (自動(dòng)翻譯), 或數(shù)據(jù)庫(kù) (數(shù)據(jù)倉(cāng)儲(chǔ)).

?生成 (Generation): 有時(shí)候, 我們也會(huì)把某些有用, 但是比較抽象的信息, 用文字寫(xiě)出來(lái), 或用語(yǔ)音說(shuō)出來(lái), 這叫 "生成" 或 "合成".

3剩失、“自然語(yǔ)言處理”有什么作用?

?機(jī)器翻譯 (MT; machine translation), 文字轉(zhuǎn)語(yǔ)音 (TTS; text-to-speech), 翻譯電話(huà)/電話(huà)轉(zhuǎn)譯 (Interpreter Telephony)...

?雙語(yǔ)詞典自動(dòng)建構(gòu) (automatic construction of bilingual dictionaries), 雙語(yǔ)詞/短語(yǔ)自動(dòng)對(duì)齊 (word/phrase alignment)...

?知識(shí)本體自動(dòng)建構(gòu) (ontology construction), 特定領(lǐng)域?qū)I(yè)辭典建構(gòu) (domain specific word extraction)...

?論文自動(dòng)寫(xiě)作 (automatic authoring), 拼字校正 (spelling checker), 文法校正 (grammar checker)...

?信息檢索(IR; information retrieval), 信息抽取(IE; information extraction), 數(shù)據(jù)挖掘 (DM; data mining), 文本挖掘 (TM; text mining), 網(wǎng)絡(luò)挖掘(WM: web mining)...

?文件/網(wǎng)頁(yè)分類(lèi)/分級(jí) (TC; text classification/categorization), 垃圾信分類(lèi) (anti-spamming)...

?跨語(yǔ)言信息檢索 (CLIR; cross-lingual IR), 跨語(yǔ)言信息抽取(CLIE; cross-lingual IE), 跨語(yǔ)言*...

?生物信息 (bio-informatics), 序列比對(duì) (sequence alignment), 結(jié)構(gòu)比對(duì) (secondary structure)...

?電子學(xué)習(xí) (e-Learning), 語(yǔ)言教學(xué) (CALL; Computer Aided Language Learning), 自動(dòng)出題 (test item generation) (e.g., TOFEL,), 自動(dòng)改題 (automatic test scoring)...

?情緒分析(emotion analysis), 民意分析 (opinion analysis), 情報(bào)分析 (intelligence analysis), 關(guān)鍵詞攔截 (keyword spotting)...

?自動(dòng)營(yíng)銷(xiāo) (automatic information pushing)...

?智能型輸入系統(tǒng) (Smart IM), 身障輔助輸入系統(tǒng)...

?總之...

?所有你想象得到, 跟 "文字" 或 "類(lèi)文字" 的符號(hào)系列 (如 DNA, 樂(lè)譜) 相關(guān)的自動(dòng)化分析, 轉(zhuǎn)換, 合成, 要想做得更好, 最終都不能不考慮他們的結(jié)構(gòu)跟功能 (語(yǔ)法跟語(yǔ)意). 所以, 自然語(yǔ)言處理的技術(shù), 最終都會(huì)被用到這些應(yīng)用領(lǐng)域.

?那你說(shuō), 重不重要?

4、“自然語(yǔ)言處理”研究的終極目標(biāo)是什么??

?自然語(yǔ)言接口: 讓機(jī)器來(lái)學(xué)習(xí)我們的語(yǔ)言, 了解我們想做什么, 而不是讓我們學(xué)習(xí)機(jī)器的語(yǔ)言, 教他下一步怎么做!!

?智能型代理人: 自動(dòng)獲取我們所要的知識(shí).

?智能問(wèn)答系統(tǒng): 即問(wèn)即答, 實(shí)問(wèn)實(shí)答的百科全書(shū).

?跨越語(yǔ)言障礙: 用不同語(yǔ)言, 應(yīng)用各種語(yǔ)言材料, 及上述自然語(yǔ)言應(yīng)用.

5册着、機(jī)器翻譯系統(tǒng)(MTS:Machine Translation Systems) 是什么

?機(jī)器翻譯系統(tǒng)就是可以用來(lái)將一種語(yǔ)言 (來(lái)源語(yǔ); SL; Source Language) 翻譯成另一種語(yǔ)言 (目標(biāo)語(yǔ); TL; Target Language) 的系統(tǒng).

?主要是透過(guò)對(duì)的原始語(yǔ)言 (來(lái)源語(yǔ)) 的分析, 得到其結(jié)構(gòu), 再將分析的結(jié)構(gòu)轉(zhuǎn)換成目標(biāo)語(yǔ)的結(jié)構(gòu), 而后根據(jù)目標(biāo)語(yǔ)結(jié)構(gòu), 生成目標(biāo)語(yǔ), 來(lái)達(dá)到翻譯的目的.

?這樣的翻譯模型, 統(tǒng)稱(chēng)為 Transfer-Based MT (轉(zhuǎn)換式機(jī)器翻譯).

?這很像Compilers 所作的 Lexical analysis, Syntax analysis, Semantic analysis, Intermediate Code Generation, Code Optimization, Target Machine Code Generation 等步驟. 只是自然語(yǔ)言具有高度的 ambiguity (歧義性,模糊性), 需要有最佳化決策模型, 來(lái)挑選最好的分析.

?上面提到的自然語(yǔ)言三種主要處理型態(tài) (分析/轉(zhuǎn)換/生成), 其實(shí)就是以機(jī)器翻譯系統(tǒng)為本的分類(lèi).

?1988 年開(kāi)始, 另外有純統(tǒng)計(jì)模型的機(jī)器翻譯系統(tǒng) (SMT; Statistical MT) 被IBM 研究人員開(kāi)發(fā)出來(lái). 主要是利用逐句對(duì)應(yīng)好的雙語(yǔ)語(yǔ)料, 及簡(jiǎn)單的統(tǒng)計(jì)模型, 學(xué)習(xí)詞匯對(duì)齊 (alignment), 轉(zhuǎn)換規(guī)則及翻譯機(jī)率, 從而由生成的可能翻譯句中, 挑選最可能的翻譯的做法.

?機(jī)器翻譯系統(tǒng)是最復(fù)雜的自然語(yǔ)言處理系統(tǒng). 因此, 學(xué)過(guò)或開(kāi)發(fā)過(guò)大型機(jī)器翻譯系統(tǒng), 能讓你充分了解各種不同層次的語(yǔ)言處理問(wèn)題與處理技巧. 所以, 要透徹了解自然語(yǔ)言處理的人, 不能不了解機(jī)器翻譯系統(tǒng).

6拴孤、“機(jī)器翻譯”不只是“語(yǔ)言翻譯”

?凡是從一種符號(hào)序列轉(zhuǎn)成另一種符號(hào)系列, 都是一種形式的機(jī)器翻譯. 都可用類(lèi)似的模型處理.

?語(yǔ)言翻譯 (language-to-language translation)

?外國(guó)人名音譯/反音譯 (forward/backward machine transliteration)

?文字轉(zhuǎn)語(yǔ)音 (text-to-speech)

?電話(huà)轉(zhuǎn)譯/自動(dòng)口譯 (interpreter telephony; speech-to-speech)

?同音字自動(dòng)辨識(shí)選取 (phonetic input methods; phonetic-symbols-to-characters)

?自動(dòng)作曲/作詞/伴奏/和弦 (automatic composition)

?多媒體情境呈現(xiàn) (text-to-emotion)

?劇本轉(zhuǎn)動(dòng)畫(huà) (script to motion pictures)

?火星文/注音文還原

?中文對(duì)聯(lián)自動(dòng)產(chǎn)生 (Chinese Couplet Generator, 微軟亞洲研究院, 2006)

?以后, 自動(dòng)改寫(xiě)哈利波特, 自動(dòng)產(chǎn)生偶像劇劇本有沒(méi)有可能呢 ?

?more ... (自己想象吧!!)

7、為什么“自然語(yǔ)言處理”是信息處理的明日之星

?人類(lèi)的所有智能跟知識(shí), 多數(shù)是以文字的型態(tài)存在的.

?要自動(dòng)處理和挖掘里面的知識(shí), 自然不能不采用自然語(yǔ)言處理的技術(shù).

?看看Google跟Microsoft拼命找NLP的研究人員, 就知道了!!

?Google跟Microsoft 怎么贏, 就看我們啰 !!

8甲捏、為什么“機(jī)器翻譯”是信息抽取的明日之星

?網(wǎng)絡(luò)打破了距離的障礙,

?但是... 語(yǔ)言障礙 (Language Barrier) 仍舊存在 !!

?語(yǔ)言成了目前妨礙信息流通及存取的最大絆腳石.

?跨語(yǔ)言的知識(shí)抽取與分享, 必須有強(qiáng)力的“翻譯引擎”才容易達(dá)成目標(biāo).

9演熟、哪些語(yǔ)言會(huì)是未來(lái)幾年的重要研究對(duì)象

?中文啰 !! 使用人口眾多, 大家要賺錢(qián)啊 !!

?美國(guó)老大哥也很怕非和平崛起啊 !!

?你以為所謂的“戰(zhàn)略語(yǔ)言”是個(gè)什么詞兒啊??

?信息封鎖/過(guò)濾 (screening) 也需要這一套啊. (哦哦... 被拿來(lái)做壞事啰!! 真尷尬!!)

?還有阿拉伯文啰!! 美國(guó)大哥大對(duì)這地區(qū)一向很頭痛 !!

?你猜“全民公敵”里那樣的衛(wèi)星, 平常都是在攔截哪些關(guān)鍵詞啊 ?!

10、“中文處理”與“英文處理”有什么不一樣的地方

?字集 (character set) 非常大. (e.g., Big5 有 13,053 個(gè)字). 字碼 (code set) 不統(tǒng)一.

?同音字極多. 注音或拼音輸入有極高的歧義性.

?字的排序 (sorting sequence) 沒(méi)有一定標(biāo)準(zhǔn) (通常依筆劃或部首順序).

?詞(word) 的界線(xiàn)不明顯, 沒(méi)有空格把詞分開(kāi), 多數(shù)應(yīng)用需要先作斷詞 (或稱(chēng)分詞) (word segmentation) 的動(dòng)作.

?句子的界線(xiàn)也不明顯. 標(biāo)點(diǎn)符號(hào)沒(méi)有統(tǒng)一的標(biāo)準(zhǔn). 不像英文一樣, 一個(gè)句子只有一個(gè)主要?jiǎng)釉~.

?沒(méi)有像英文一樣明顯的時(shí)態(tài), 動(dòng)貌系統(tǒng), 單復(fù)數(shù)名詞同型. 名詞及動(dòng)詞難以從型態(tài)分辨出來(lái).

?縮寫(xiě)詞 (abbreviation) 產(chǎn)生方式非常自由, 具有相當(dāng)程度的歧義性.

?中文詞序 (word order) 非常自由, 同一句子部分用詞位置調(diào)動(dòng)后, 意思還是不變.

?還有好多大家還沒(méi)注意到的... to be found

11摊鸡、學(xué)自然語(yǔ)言處理一定要文法很強(qiáng)嗎??

?有當(dāng)然最好. 但目前的趨勢(shì)是用統(tǒng)計(jì)模型跟機(jī)器學(xué)習(xí)的方法, 從大量的語(yǔ)料里面學(xué)習(xí)語(yǔ)言的細(xì)微規(guī)則.所以, 基本的語(yǔ)文知識(shí)要有,卻不必要到語(yǔ)言學(xué)家的層次.問(wèn)題不大.

12绽媒、學(xué)自然語(yǔ)言處理可以學(xué)到哪些相關(guān)的技術(shù)??

?看看上面相關(guān)的應(yīng)用, 你還覺(jué)得有哪些學(xué)不到的 ?!

?語(yǔ)言分析 (<=> compilers, formal languages)

?統(tǒng)計(jì)推論/參數(shù)估計(jì)/假設(shè)檢定 (<=> statistical inference, estimation theories)

?樣形識(shí)別 (<=> statistical pattern recognition)

?機(jī)器學(xué)習(xí) (<=> statistical machine learning)

?基本技術(shù)不難... 老師有講, 你有專(zhuān)心在聽(tīng)就容易學(xué)會(huì).

13、有人認(rèn)為統(tǒng)計(jì)機(jī)器翻譯模型 (SMT) 解救了全世界. 老師的看法呢??

?目前多數(shù)SMT Models 太過(guò)簡(jiǎn)化, 難以完全表達(dá)語(yǔ)言轉(zhuǎn)譯的機(jī)制, 跟目標(biāo)語(yǔ)特有的結(jié)構(gòu).

?SMT 在語(yǔ)言知識(shí)抽取方面是有可取之處, 但太夸張的說(shuō)法, 聽(tīng)聽(tīng)就好. 真有那么神, 那些發(fā)明人就不會(huì)跑去華爾街分析股票了.

?多數(shù)研究 SMT 的人沒(méi)真正開(kāi)發(fā)過(guò)大型的 MT 系統(tǒng). 不過(guò), papers 倒是很容易產(chǎn)生.

?SMT 在知識(shí)抽取方面的優(yōu)點(diǎn)還是要學(xué), 但要知道他的先天限制, 才能予以改善.

?感覺(jué)上, 登陸月球都沒(méi)那么難, 要努力的地方還多著呢 !!


轉(zhuǎn)載自:“我愛(ài)自然語(yǔ)言處理”:http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末免猾,一起剝皮案震驚了整個(gè)濱河市是辕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌猎提,老刑警劉巖获三,帶你破解...
    沈念sama閱讀 221,576評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異锨苏,居然都是意外死亡疙教,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)伞租,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)贞谓,“玉大人,你說(shuō)我怎么就攤上這事葵诈÷阆遥” “怎么了祟同?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,017評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)理疙。 經(jīng)常有香客問(wèn)我晕城,道長(zhǎng),這世上最難降的妖魔是什么窖贤? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,626評(píng)論 1 296
  • 正文 為了忘掉前任砖顷,我火速辦了婚禮,結(jié)果婚禮上赃梧,老公的妹妹穿的比我還像新娘滤蝠。我一直安慰自己,他們只是感情好槽奕,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,625評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布几睛。 她就那樣靜靜地躺著,像睡著了一般粤攒。 火紅的嫁衣襯著肌膚如雪所森。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,255評(píng)論 1 308
  • 那天夯接,我揣著相機(jī)與錄音焕济,去河邊找鬼。 笑死盔几,一個(gè)胖子當(dāng)著我的面吹牛晴弃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播逊拍,決...
    沈念sama閱讀 40,825評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼殴蹄,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼凯旋!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,729評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤畅卓,失蹤者是張志新(化名)和其女友劉穎裕循,沒(méi)想到半個(gè)月后蜂绎,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體搓逾,經(jīng)...
    沈念sama閱讀 46,271評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,363評(píng)論 3 340
  • 正文 我和宋清朗相戀三年骗露,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了岭佳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,498評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡萧锉,死狀恐怖珊随,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情柿隙,我是刑警寧澤玫恳,帶...
    沈念sama閱讀 36,183評(píng)論 5 350
  • 正文 年R本政府宣布辨赐,位于F島的核電站,受9級(jí)特大地震影響京办,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜帆焕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,867評(píng)論 3 333
  • 文/蒙蒙 一惭婿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧叶雹,春花似錦财饥、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,338評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至满着,卻和暖如春谦炒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背风喇。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,458評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工宁改, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人魂莫。 一個(gè)月前我還...
    沈念sama閱讀 48,906評(píng)論 3 376
  • 正文 我出身青樓还蹲,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親耙考。 傳聞我的和親對(duì)象是個(gè)殘疾皇子谜喊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,507評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容