自然語(yǔ)言處理(NLP)的一般處理流程!

1. 什么是NLP

自然語(yǔ)言處理 (Natural Language Processing) 是人工智能(AI)的一個(gè)子領(lǐng)域坎怪。自然語(yǔ)言處理是研究在人與人交互中以及在人與計(jì)算機(jī)交互中的語(yǔ)言問(wèn)題的一門(mén)學(xué)科敦迄。為了建設(shè)和完善語(yǔ)言模型斧散,自然語(yǔ)言處理建立計(jì)算框架玻驻,提出相應(yīng)的方法來(lái)不斷的完善設(shè)計(jì)各種實(shí)用系統(tǒng)悼凑,并探討這些實(shí)用系統(tǒng)的評(píng)測(cè)方法。

2. NLP主要研究方向

  1. 信息抽取:從給定文本中抽取重要的信息,比如時(shí)間户辫、地點(diǎn)益老、人物、事件寸莫、原因、結(jié)果档冬、數(shù)字膘茎、日期、貨幣酷誓、專(zhuān)有名詞等等披坏。通俗說(shuō)來(lái),就是要了解誰(shuí)在什么時(shí)候盐数、什么原因棒拂、對(duì)誰(shuí)、做了什么事玫氢、有什么結(jié)果帚屉。
  2. 文本生成:機(jī)器像人一樣使用自然語(yǔ)言進(jìn)行表達(dá)和寫(xiě)作。依據(jù)輸入的不同漾峡,文本生成技術(shù)主要包括數(shù)據(jù)到文本生成和文本到文本生成攻旦。數(shù)據(jù)到文本生成是指將包含鍵值對(duì)的數(shù)據(jù)轉(zhuǎn)化為自然語(yǔ)言文本;文本到文本生成對(duì)輸入文本進(jìn)行轉(zhuǎn)化和處理從而產(chǎn)生新的文本生逸。
  3. 問(wèn)答系統(tǒng):對(duì)一個(gè)自然語(yǔ)言表達(dá)的問(wèn)題牢屋,由問(wèn)答系統(tǒng)給出一個(gè)精準(zhǔn)的答案。需要對(duì)自然語(yǔ)言查詢(xún)語(yǔ)句進(jìn)行某種程度的語(yǔ)義分析槽袄,包括實(shí)體鏈接烙无、關(guān)系識(shí)別,形成邏輯表達(dá)式遍尺,然后到知識(shí)庫(kù)中查找可能的候選答案并通過(guò)一個(gè)排序機(jī)制找出最佳的答案截酷。
  4. 對(duì)話系統(tǒng):系統(tǒng)通過(guò)一系列的對(duì)話,跟用戶(hù)進(jìn)行聊天狮鸭、回答合搅、完成某一項(xiàng)任務(wù)。涉及到用戶(hù)意圖理解歧蕉、通用聊天引擎灾部、問(wèn)答引擎、對(duì)話管理等技術(shù)惯退。此外赌髓,為了體現(xiàn)上下文相關(guān),要具備多輪對(duì)話能力。
  5. 文本挖掘:包括文本聚類(lèi)锁蠕、分類(lèi)夷野、情感分析以及對(duì)挖掘的信息和知識(shí)的可視化、交互式的表達(dá)界面荣倾。目前主流的技術(shù)都是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的悯搔。
  6. 語(yǔ)音識(shí)別和生成:語(yǔ)音識(shí)別是將輸入計(jì)算機(jī)的語(yǔ)音符號(hào)識(shí)別轉(zhuǎn)換成書(shū)面語(yǔ)表示。語(yǔ)音生成又稱(chēng)文語(yǔ)轉(zhuǎn)換舌仍、語(yǔ)音合成妒貌,它是指將書(shū)面文本自動(dòng)轉(zhuǎn)換成對(duì)應(yīng)的語(yǔ)音表征。
  7. 信息過(guò)濾:通過(guò)計(jì)算機(jī)系統(tǒng)自動(dòng)識(shí)別和過(guò)濾符合特定條件的文檔信息铸豁。通常指網(wǎng)絡(luò)有害信息的自動(dòng)識(shí)別和過(guò)濾灌曙,主要用于信息安全和防護(hù),網(wǎng)絡(luò)內(nèi)容管理等。
  8. 輿情分析:是指收集和處理海量信息,自動(dòng)化地對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析跃闹,以實(shí)現(xiàn)及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情的目的。
  9. 信息檢索:對(duì)大規(guī)模的文檔進(jìn)行索引蚣驼。可簡(jiǎn)單對(duì)文檔中的詞匯拧晕,賦之以不同的權(quán)重來(lái)建立索引隙姿,也可建立更加深層的索引。在查詢(xún)的時(shí)候厂捞,對(duì)輸入的查詢(xún)表達(dá)式比如一個(gè)檢索詞或者一個(gè)句子進(jìn)行分析输玷,然后在索引里面查找匹配的候選文檔,再根據(jù)一個(gè)排序機(jī)制把候選文檔排序靡馁,最后輸出排序得分最高的文檔欲鹏。
  10. 機(jī)器翻譯:把輸入的源語(yǔ)言文本通過(guò)自動(dòng)翻譯獲得另外一種語(yǔ)言的文本。機(jī)器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計(jì)的方法臭墨,再到今天的基于神經(jīng)網(wǎng)絡(luò)(編碼-解碼)的方法赔嚎,逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。

3. NLP的發(fā)展

  1. 1950年前:圖靈測(cè)試
    1950年前阿蘭·圖靈圖靈測(cè)試:人和機(jī)器進(jìn)行交流胧弛,如果人無(wú)法判斷自己交流的對(duì)象是人還是機(jī)器尤误,就說(shuō)明這個(gè)機(jī)器具有智能。

  2. 1950-1970:主流:基于規(guī)則形式語(yǔ)言理論

    喬姆斯基结缚,根據(jù)數(shù)學(xué)中的公理化方法研究自然語(yǔ)言损晤,采用代數(shù)和集合論把形式語(yǔ)言定義為符號(hào)的序列。他試圖使用有限的規(guī)則描述無(wú)限的語(yǔ)言現(xiàn)象红竭,發(fā)現(xiàn)人類(lèi)普遍的語(yǔ)言機(jī)制尤勋,建立所謂的普遍語(yǔ)法喘落。

  3. 1970-至今:主流:基于統(tǒng)計(jì)
    谷歌、微軟最冰、IBM瘦棋,20世紀(jì)70年代,弗里德里克·賈里尼克及其領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室將語(yǔ)音識(shí)別率從70%提升到90%暖哨。
    1988年赌朋,IBM的彼得·布朗提出了基于統(tǒng)計(jì)的機(jī)器翻譯方法。
    2005年篇裁,Google機(jī)器翻譯打敗基于規(guī)則的Sys Tran箕慧。

  4. 2010年以后:逆襲:機(jī)器學(xué)習(xí)

    AlphaGo先后戰(zhàn)勝李世石、柯潔等茴恰,掀起人工智能熱潮。深度學(xué)習(xí)斩熊、人工神經(jīng)網(wǎng)絡(luò)成為熱詞往枣。領(lǐng)域:語(yǔ)音識(shí)別、圖像識(shí)別粉渠、機(jī)器翻譯分冈、自動(dòng)駕駛、智能家居霸株。

4. NLP任務(wù)的一般步驟

下面圖片看不清楚的雕沉,可以百度腦圖查看,點(diǎn)擊鏈接

5. 我的NLP啟蒙讀本

《數(shù)學(xué)之美》--吳軍

6. NLP去件、CV坡椒,選哪個(gè)?

NLP:自然語(yǔ)言處理尤溜,數(shù)據(jù)是文本倔叼。

CV:計(jì)算機(jī)視覺(jué),數(shù)據(jù)是圖像宫莱。

兩者屬于不同的領(lǐng)域丈攒,在遇到這個(gè)問(wèn)題的時(shí)候,我也是猶豫了很久授霸,想了很多巡验,于是乎得出一個(gè)結(jié)論:都是利用深度學(xué)習(xí)去解決現(xiàn)實(shí)世界存在的問(wèn)題,離開(kāi)了CV碘耳,NLP存活不了显设;離開(kāi)了NLP,CV存活不了藏畅。兩者就像兄弟姐妹一樣敷硅,整個(gè)“家庭”不能分割但個(gè)體又存在差異功咒!

NLP/CV屬于兩個(gè)不同的研究領(lǐng)域,都是很好的領(lǐng)域绞蹦,可以根據(jù)自己的愛(ài)好作出適合自己的選擇力奋,人工智能是一個(gè)多學(xué)科交叉的領(lǐng)域,需要的不僅僅是單方面的能力幽七,而是多方面的能力景殷。對(duì)于每個(gè)人來(lái)說(shuō)都有自己的側(cè)重點(diǎn),畢竟人的精力是有限的澡屡。只要在自己擅長(zhǎng)的領(lǐng)域里持續(xù)深耕猿挚,我相信都會(huì)有所成就!

這里提供一些參考資料給大家閱讀閱讀驶鹉,做出適合自己的選擇:

機(jī)器學(xué)習(xí)通俗易懂系列文章

3.png

作者:@mantchs

GitHub:https://github.com/NLP-LOVE/ML-NLP

歡迎大家加入討論!共同完善此項(xiàng)目室埋!群號(hào):【541954936】點(diǎn)擊加入

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末办绝,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子姚淆,更是在濱河造成了極大的恐慌孕蝉,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件腌逢,死亡現(xiàn)場(chǎng)離奇詭異降淮,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)搏讶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)佳鳖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人媒惕,你說(shuō)我怎么就攤上這事腋颠。” “怎么了吓笙?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵淑玫,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我面睛,道長(zhǎng)絮蒿,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任叁鉴,我火速辦了婚禮土涝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘幌墓。我一直安慰自己但壮,他們只是感情好冀泻,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著蜡饵,像睡著了一般弹渔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上溯祸,一...
    開(kāi)封第一講書(shū)人閱讀 51,688評(píng)論 1 305
  • 那天肢专,我揣著相機(jī)與錄音,去河邊找鬼焦辅。 笑死博杖,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的筷登。 我是一名探鬼主播剃根,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼前方!你這毒婦竟也來(lái)了跟继?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤镣丑,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后娱两,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體莺匠,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年十兢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了趣竣。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡旱物,死狀恐怖遥缕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情宵呛,我是刑警寧澤单匣,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站宝穗,受9級(jí)特大地震影響户秤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜逮矛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一鸡号、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧须鼎,春花似錦鲸伴、人聲如沸府蔗。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)姓赤。三九已至,卻和暖如春杉辙,著一層夾襖步出監(jiān)牢的瞬間模捂,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工蜘矢, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留狂男,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓品腹,卻偏偏與公主長(zhǎng)得像岖食,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子舞吭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容