吾愛NLP(1)--我與自然語言處理

0返十、自然語言處理--NLP

0.1 數(shù)字、文本椭微、語言

"數(shù)字洞坑、文字和自然語言處理一樣,都是信息的載體蝇率,數(shù)字與語言的產(chǎn)生都是為了同一個(gè)目的----記錄和傳播信息迟杂。"
--《數(shù)學(xué)之美》

文字只是信息的載體,而非信息本身本慕,那么不用文字排拷,而用其它的載體(比如word2vec形式的詞向量)是否一樣可以儲存同樣意義的信息呢?這個(gè)答案是肯定的间狂,這也是現(xiàn)在通信技術(shù)的基礎(chǔ)攻泼,如果想讓計(jì)算機(jī)來處理我們的人類語言、文本數(shù)據(jù)鉴象,首要的就是換一種數(shù)據(jù)的載體(表示形式)---數(shù)值化。


任何一種語言都是一種對信息進(jìn)行編碼的方式何鸡,而語言的語法規(guī)則就是編解碼的算法纺弊,這就是語言的數(shù)學(xué)本質(zhì)。

0.2 什么是自然語言處理骡男?

自然語言處理NLP (Natural Language Processing)是研究人與計(jì)算機(jī)交互的語言問題的一門學(xué)科淆游,自然語言處理的關(guān)鍵是要讓計(jì)算機(jī)“理解”自然語言,是人工智能(AI)的一個(gè)核心子領(lǐng)域之一隔盛。

自動翻譯
語義助手

自然語言處理=文本處理+機(jī)器學(xué)習(xí)犹菱。自然語言處理技術(shù)主要是讓機(jī)器理解人類的語言的一門領(lǐng)域。在自然語言處理技術(shù)中吮炕,大量使用了編譯原理相關(guān)的技術(shù)腊脱,例如詞法分析,語法分析等等龙亲,除此之外陕凹,在理解這個(gè)層面,則使用了語義理解鳄炉,機(jī)器學(xué)習(xí)等技術(shù)杜耙。作為唯一由人類自身創(chuàng)造的符號,自然語言處理一直是機(jī)器學(xué)習(xí)界不斷研究的方向拂盯。按照百度機(jī)器學(xué)習(xí)專家余凱的說法“聽與看佑女,說白了就是阿貓和阿狗都會的,而只有語言才是人類獨(dú)有的”。如何利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自然語言的的深度理解团驱,一直是工業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)摸吠。

1、語言模型

宏觀上:語言模型是根據(jù)語言客觀事實(shí)而進(jìn)行的語言抽象數(shù)學(xué)建模店茶,是一種對應(yīng)關(guān)系蜕便。語言模型與語言客觀事實(shí)之間的關(guān)系,如同數(shù)學(xué)上的抽象直線與具體直線之間的關(guān)系贩幻。

簡單說轿腺,語言模型就是用來計(jì)算一個(gè)句子的概率的模型。
利用語言模型丛楚,可以確定哪個(gè)詞序列的可能性更大族壳,或者給定若干個(gè)詞,可以預(yù)測下一個(gè)最可能出現(xiàn)的詞語趣些。
按照語言模型的演進(jìn)歷史仿荆,大體可分為三類:文法型語言模型、統(tǒng)計(jì)語言模型坏平、神經(jīng)概率語言模型拢操。

下面偷個(gè)懶,哈哈舶替,直接從我做論文分享時(shí)的做的PPT里粘貼出來:

n-gram語言模型的應(yīng)用非常廣泛令境,最早期的應(yīng)用是語音識別、機(jī)器翻譯等問題顾瞪。哈爾濱工業(yè)大學(xué)王曉龍教授最早將其應(yīng)用到音字轉(zhuǎn)換問題舔庶,提出了“語句級拼音輸入法”,后來該技術(shù)轉(zhuǎn)讓給微軟陈醒,也就是后來的微軟拼音輸入法惕橙。從windows95開始,系統(tǒng)就會自動安裝該輸入法钉跷,并在以后更高版本的windows中和Office辦公軟件都會集成最新的微軟拼音輸入法弥鹦。n年之后,各個(gè)輸入法的新秀(如搜狗和谷歌)也都采用了n-gram技術(shù)尘应。

基于神經(jīng)網(wǎng)絡(luò)的語言模型
Bengio 在 2003 年提出的神經(jīng)概率語言模型(Neural Probabilistic Language Model, NPLM)是影響較大的基于神經(jīng)網(wǎng)絡(luò)的語言模型1惶凝。其模型思想其實(shí)和 N-gram 語言模型還是同出一源,即基于 N-1 階馬爾可夫假設(shè)犬钢,認(rèn)為句子中某個(gè)詞是由其前面的 N-1 個(gè)詞決定的苍鲜。模型使用的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。
這個(gè)模型將 N-1 個(gè)詞的表示拼接起來作為輸入玷犹,然后去預(yù)測下一個(gè)詞最有可能是哪個(gè)混滔。輸出層會是一個(gè)很大的向量,每一維的值就是每一個(gè)可能的詞的條件概率,這樣要計(jì)算一個(gè)句子的概率也就沒問題了坯屿。

**這樣基于神經(jīng)網(wǎng)絡(luò)的語言模型有什么好處呢油湖? **

  • N-gram 需要顯式存儲每個(gè) N-gram 的內(nèi)容和概率,于是模型體積會隨著語料的擴(kuò)充而膨脹领跛,但 NPLM 沒有這個(gè)問題乏德。
  • N-gram 需要應(yīng)用各種平滑方法來解決零概率問題,但 NPLM 不存在這個(gè)問題吠昭,即使是語料中沒出現(xiàn)的 N-gram 喊括,依然能給出非 0 的概率值。
  • 模型中會學(xué)習(xí)一個(gè)固定長度的向量來表示一個(gè)詞矢棚,且向量中各維度的值都是連續(xù)實(shí)值而非離散的 0/1 郑什,此即詞向量「Word Embedding」的較早形式。

2蒲肋、文末總結(jié)

理解各種語言模型蘑拯,是理解計(jì)算機(jī)如何處理語言、文本等信息的基礎(chǔ)兜粘,在NPLM模型中申窘,我們也提到了詞向量,這里后續(xù)深度學(xué)習(xí)技術(shù)能夠應(yīng)用到自然語言處理中來的一個(gè)重要的理論基礎(chǔ)孔轴,在學(xué)習(xí)深度學(xué)習(xí)在NLP中大展神威之前我們首先需要系統(tǒng)的了解詞向量的由來以及常用的表示形式偶洋,還有一個(gè)非常重要的獲取詞向量的工具---word2vec,它的理論來源可以理解為是作者Tomas Mikolov對NLPM模型的延伸拓展距糖。
有時(shí)間的話,我會繼續(xù)從詞向量-->word2vec-->doc2vec-->文本分類-->......的流程繼續(xù)往下寫牵寺,這也是我入門NLP時(shí)的學(xué)習(xí)路線悍引。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市帽氓,隨后出現(xiàn)的幾起案子趣斤,更是在濱河造成了極大的恐慌,老刑警劉巖黎休,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件浓领,死亡現(xiàn)場離奇詭異,居然都是意外死亡势腮,警方通過查閱死者的電腦和手機(jī)联贩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捎拯,“玉大人泪幌,你說我怎么就攤上這事。” “怎么了祸泪?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵吗浩,是天一觀的道長。 經(jīng)常有香客問我没隘,道長懂扼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任右蒲,我火速辦了婚禮阀湿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘品嚣。我一直安慰自己炕倘,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布翰撑。 她就那樣靜靜地躺著罩旋,像睡著了一般。 火紅的嫁衣襯著肌膚如雪眶诈。 梳的紋絲不亂的頭發(fā)上涨醋,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天,我揣著相機(jī)與錄音逝撬,去河邊找鬼浴骂。 笑死,一個(gè)胖子當(dāng)著我的面吹牛宪潮,可吹牛的內(nèi)容都是我干的溯警。 我是一名探鬼主播,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼狡相,長吁一口氣:“原來是場噩夢啊……” “哼梯轻!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起尽棕,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤喳挑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后滔悉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體伊诵,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年回官,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了曹宴。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,841評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡孙乖,死狀恐怖浙炼,靈堂內(nèi)的尸體忽然破棺而出份氧,到底是詐尸還是另有隱情,我是刑警寧澤弯屈,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布蜗帜,位于F島的核電站,受9級特大地震影響资厉,放射性物質(zhì)發(fā)生泄漏厅缺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一宴偿、第九天 我趴在偏房一處隱蔽的房頂上張望湘捎。 院中可真熱鬧,春花似錦窄刘、人聲如沸窥妇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽活翩。三九已至,卻和暖如春翻伺,著一層夾襖步出監(jiān)牢的瞬間材泄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工吨岭, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拉宗,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓辣辫,卻偏偏與公主長得像旦事,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子急灭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容