干貨 | “NLP”與“語言學(xué)家”的那些事兒猖凛!

想象一下赂蠢,假設(shè)時(shí)光倒流回十年前,或者二十年前辨泳,能否想象突然之間沒有了手機(jī)虱岂,沒有無線網(wǎng),沒有所有電子設(shè)備的生活嗎菠红?

這可能會很困難第岖。

其實(shí)在不知不覺中,我們已經(jīng)被裹挾在信息浪潮中试溯,已經(jīng)處在一個知識蔑滓,傳播更新迭代非常快速的時(shí)代遇绞。所以“AI”键袱,它不是一個追求,一種新鮮或一時(shí)的刺激试读,而是真正未來的方向杠纵,一個剛需。

同樣钩骇,“語言”是非常重要的比藻,在所有的生物中,只有人類是真正意義上具有語言能力的倘屹,所以人工智能最重要的一個關(guān)口银亲,就是可以感覺到它應(yīng)該像一個人類。如果連最核心的語言關(guān)都沒有辦法攻破的話纽匙,怎么樣去實(shí)現(xiàn)所謂真正的智能务蝠,顯然這是不可能做到的。而如今許多“NLP”的研究者都在引入一些語言學(xué)的知識來幫助他們提取更多的訓(xùn)練特征烛缔,提供更靠譜的思維角度馏段。

接下來這一點(diǎn)轩拨,其實(shí)是學(xué)科上的一個空白,如果平時(shí)我們積極關(guān)注科技領(lǐng)域院喜,會發(fā)現(xiàn)亡蓉,主要力量是計(jì)算機(jī)專業(yè)或者相關(guān)學(xué)科背景的人,在為科技發(fā)展做貢獻(xiàn)喷舀,而語言學(xué)學(xué)科背景的人士砍濒,更多去專注于翻譯和教育這兩個方向,把語言當(dāng)作工具使用硫麻。所以在未來爸邢,我們或許需要一個跨學(xué)科的合作。

而且自然語言分析有兩個方向拿愧,一是理解杠河,首先機(jī)器要能夠懂得人類的語言。另外一個方面赶掖,就是機(jī)器要能夠自己去表達(dá)思想感猛。

而這兩個方面,都是很困難的奢赂,如果沒有投入極大的精力陪白,還有專業(yè)的支撐,可能就是閉門造車膳灶。如果這個行業(yè)只有計(jì)算機(jī)相關(guān)的人員在參與在內(nèi)咱士,他們大概只能夠做到不斷的去優(yōu)化和提升技術(shù),但是對于真正需要應(yīng)用的轧钓,**尤其是語言領(lǐng)域等核心問題序厉,大部分人是沒有涉獵的。所以這是作為文科背景的同學(xué)們也是可以選擇AI行業(yè)的重要原因毕箍。

以智能客服為例弛房,如圖所示,首先左邊是用戶的輸入而柑,當(dāng)用戶輸入接進(jìn)來了之后文捶,需要通過“naturAI language understanding”,也就是“自然語言理解”形式去對它進(jìn)行初步的處理媒咳,經(jīng)過這樣的一個步驟粹排,把分析好的信息,交接到下一個“diAIog manager”涩澡,就是“對話管理模塊”顽耳,由模塊去判斷我們對話的狀態(tài),以及調(diào)用“knowledge graph”知識庫的這些知識。

從這個里面正確的得到了一個非常簡單初步的信息射富,但是簡單初步的信息膝迎,顯然是沒有辦法直接拿給用戶的,那么也就到了下面一個關(guān)鍵的節(jié)點(diǎn)胰耗,就是“NLG”弄抬。

“NLG”,自然語言生成宪郊。

到達(dá)這一步后,把非常粗糙的方面拖陆,處理成為易懂并且自然流暢的語言弛槐,最后再進(jìn)行輸出。在這整個流程中間依啰,最關(guān)鍵的是“NLU” “DM”還有“NLG”乎串,這三個模塊,也就是我們自然語言分析處理速警,應(yīng)用的最核心的幾個板塊叹誉。

逐步介紹。首先第一個板塊是“NLU”闷旧,自然語言理解长豁。顧名思義,首先應(yīng)該有理解忙灼,理解之后才可以分析匠襟,才有輸出,這是要邁出的第一步该园。

如圖所示酸舍,右邊有三個例句,“預(yù)約一下周日上午的小時(shí)保潔里初】忻悖”“可以幫我叫家政阿姨來我家嗎?”“應(yīng)該找個鐘點(diǎn)工來打掃衛(wèi)生双妨』床”

大部分人會產(chǎn)生誤解,會覺得機(jī)器的理解是不是和機(jī)器翻譯一樣斥难,看一下這個詞枝嘶,然后組合去進(jìn)行理解?其實(shí)不是的哑诊,機(jī)器理解群扶,它每個詞的確切含義,對它來說并不重要,重要的是這整一句話的意思竞阐。為了使機(jī)器能夠進(jìn)行處理缴饭,首先是通過語義分析,然后再進(jìn)行轉(zhuǎn)換骆莹。

回顧一下這三句話颗搂。經(jīng)過思考之后,會發(fā)現(xiàn)這三句話想表達(dá)的是同一件事情幕垦。在這時(shí)候丢氢,“NLU”要做的事情是什么?

首先第一步“領(lǐng)域識別”先改。舉個例子疚察,假設(shè)我們現(xiàn)在是淘寶的客服,這個時(shí)候仇奶,用戶進(jìn)來直接說“宇宙會不會爆炸貌嫡?”那么馬上就會進(jìn)行判斷,這是一個領(lǐng)域外的問題该溯,可以用其它系統(tǒng)進(jìn)行篩選攔截之類的岛抄,不會讓它進(jìn)入到后面的流程中去。

第二步是“意圖的抽取”狈茉,理解分析用戶到底是什么意圖夫椭。

當(dāng)前兩個步驟順利完成了之后,第三點(diǎn)就是槽位的填充论皆。再次回顧一下之前的三句話益楼,其實(shí)信息最完整的是第一句話,因?yàn)橄旅鎯删湓挼闱纾m然也表達(dá)出了感凤,要預(yù)約一個保潔來家里的信息,但是并沒有說清楚時(shí)間粒督。當(dāng)我們對下面兩句話進(jìn)行分析的時(shí)候陪竿,走到槽位抽取的步驟,會發(fā)現(xiàn)槽為空屠橄。而第一個就不一樣族跛,第一個首先可以抽到一個槽位,是服務(wù)類型锐墙,還有服務(wù)的時(shí)間礁哄,這樣的槽位是滿的,接下來就可以直接做處理溪北。

“NLU”現(xiàn)在有兩種方法桐绒,如圖所示夺脾,它非常簡單,在答案非常單一茉继,場景同樣單一的情況下咧叭,用簡單粗暴的一些規(guī)則形式,去進(jìn)行一個匹配烁竭。但是右邊模型的處理方式卻不太一樣菲茬,模型是非常依賴前期大量的數(shù)據(jù)標(biāo)注的。這兩種方法各有利弊派撕。

如圖所示婉弹,假如現(xiàn)在有非常迫切的需求,比較緊急终吼,那么首先可以考慮用左圖規(guī)則马胧,因?yàn)樗⒉恍枰捌跍?zhǔn)備數(shù)據(jù)之類的步驟,但是它的容錯率會非常低衔峰,靈活性也很差,而且一旦出現(xiàn)更新之類的過程蛙粘,維護(hù)迭代同樣非常困難垫卤。

右邊模型的形式,雖然在前期可能會耗費(fèi)大量的精力出牧,去進(jìn)行標(biāo)注穴肘,還有分析,但是相對于左邊就會非常靈活舔痕,覆蓋度廣评抚,非常準(zhǔn)確,而且它的針對的場景伯复,也可以更復(fù)雜一些慨代。

接下來,“DM對話管理”啸如,它是對話系統(tǒng)的一個大腦侍匙,維護(hù)更新對話的狀態(tài),基于對話狀態(tài)叮雳,選擇接下來最合適的一種動作想暗。

舉一個例子,某位用戶說“幫我叫一個車回家”帘不,在這種情況下说莫,系統(tǒng)的動作可能向用戶詢問“幾點(diǎn)出發(fā)”,或者“您的出發(fā)地和目的地分別是什么”寞焙。

假如用戶說的很清楚明白储狭,例如“明天早上8點(diǎn)互婿,幫我叫一輛從家里出發(fā)到公司的車”,那么這個時(shí)候DM的處理方式晶密,就是直接為用戶叫車擒悬。

最后,“NLP對話生成”稻艰。

舉個例子懂牧,之前有一則社會新聞,講述機(jī)器可以自動寫小說尊勿,雖然很驚訝僧凤,但是隨后發(fā)現(xiàn)機(jī)器用了一些非常稀奇古怪,甚至不能稱之為句子的語言拼湊了字?jǐn)?shù)組合在一起元扔。當(dāng)然這些都是噱頭躯保,機(jī)器目前并不能做到人類真正意義上想要看到的文章。

機(jī)器學(xué)會自己去表達(dá)澎语,是需要非常多的準(zhǔn)備途事,比如今的理解認(rèn)知還要更復(fù)雜一些,首先要將知識比較完整的收集整理擅羞,然后選一個合適的形式尸变,存到計(jì)算機(jī)系統(tǒng)里,并且還要有效的减俏,去利用它們召烂,如果個別環(huán)節(jié)出錯,可能會導(dǎo)致前功盡棄娃承。這一部分奏夫,需要語言學(xué)的應(yīng)用非常多,一個文本一個字符串历筝,是有很多含義的酗昼,一對多,多對一既是自然語言最大的魅力梳猪,也是現(xiàn)在進(jìn)行分析處理最主要的障礙仔雷。

在自然語言生成的過程中,“應(yīng)該表達(dá)什么”和“應(yīng)該怎么樣去表達(dá)”這兩種方面是非常重要的舔示,但是卻普遍忽略了另外一個問題碟婆,就是“為什么要用這種方式去表達(dá)”這同樣是非常具有價(jià)值的一個角度。

到底有什么機(jī)遇和挑戰(zhàn)惕稻?首先在NLU之前竖共,有一個非常必要的,同樣關(guān)鍵的流程俺祠,就是標(biāo)注公给。假設(shè)某位用戶借帘,輸入是“燈泡不亮”,四個字淌铐,現(xiàn)在要根據(jù)這個現(xiàn)象進(jìn)行標(biāo)注肺然,應(yīng)該怎么標(biāo)呢?可能有人會標(biāo)停電了腿准,或者標(biāo)燈絲燒斷了等际起,大概率的人都會以這個思路去走。

如圖所示吐葱,左邊這一圈白字街望,其實(shí)都是有可能造成燈泡不亮的原因,既然這么多原因都能對應(yīng)到燈泡不亮弟跑,那么就不能在一開始灾前,就預(yù)判他一定是其中哪一種,把范圍定位的太窄孟辑,就會造成很多的錯誤哎甲。

如圖所示,右邊板塊饲嗽,我們需要做一些預(yù)判和優(yōu)化烧给,在對話系統(tǒng)中,我們要及時(shí)的發(fā)現(xiàn)用戶是否偏離喝噪,狀態(tài)是否異常,如果存在異常指么,就可以考慮是否主動結(jié)束話題或者轉(zhuǎn)換話題酝惧。

在未來,機(jī)器人如果學(xué)習(xí)了這樣一種處理機(jī)制的話伯诬,對話才是比較智能的晚唇,甚至可以預(yù)判客戶的真實(shí)的需求,我們也可以更好的引導(dǎo)盗似。

在做自然語言處理的時(shí)候哩陕,需要面對三個問題,一個是體系的建立赫舒,一個是數(shù)據(jù)悍及,還有一個是算法,這是對話機(jī)器人痛點(diǎn)接癌。

這里存在一個很有意思的現(xiàn)象心赶,語言學(xué)科背景的語言學(xué)家們在此領(lǐng)域是無處不在的,并且可以參與到各個環(huán)節(jié)當(dāng)中缺猛,例如智能音箱缨叫,語音助手等椭符,它是把語音轉(zhuǎn)化為文字,然后再輸出耻姥,再把文字轉(zhuǎn)回語音销钝,等于在大框架里,接入了一些語音技術(shù)琐簇,變成了一個語音助手的形式蒸健。很多人覺得就只能處理語言,就只能文本鸽嫂,是不是范圍太窄了纵装,其實(shí)并不是,我們現(xiàn)在能夠看到的据某,背后真正的核心就是“NLU”橡娄,“DM”,還有“NLG”三個模塊癣籽。

其次是“檢索”挽唉,通過“命名實(shí)體識別”,就可以找句子里我們所需要的最關(guān)鍵的信息筷狼,例如做售前售后工作的人士瓶籽,可能比較關(guān)心是設(shè)備型號,再例如智能音箱埂材,大家用的最多的功能比如播放歌曲塑顺,或者城市溫度等,這些都是可以通過檢索的形式實(shí)現(xiàn)的俏险。

所有的產(chǎn)品严拒,其核心都是以用戶需求出發(fā),如果把握住這一點(diǎn)竖独,很多問題都會簡單化裤唠。

至于對話機(jī)器人,它承載了一個全新的交互形式莹痢。雖然道路有些漫長种蘸,但是我們已經(jīng)在路上。有大部分人不是專業(yè)計(jì)算機(jī)專業(yè)出身竞膳,加入智能領(lǐng)域航瞭,會極其不自信,“是不是會沒有幫助坦辟?”“專家根本會不會看不起我沧奴,不讓我入行”蜀细,這些顧慮都是沒有必要的乱陡,首先一定要去進(jìn)行了解,很多恐懼,都是因?yàn)槲粗a(chǎn)生的朋鞍,如果認(rèn)真的進(jìn)行了解诵棵,就清楚自身能力能發(fā)揮哪些作用卿堂,平時(shí)學(xué)會多思考盅安,這個,才是最重要的冬骚。

如果把“AI”椅贱,比作“飛機(jī)”的話,它處在“引擎”很關(guān)鍵的位置只冻,我們的目標(biāo)庇麦,就是用我們對語言天然的敏感,用語言學(xué)相關(guān)的知識讓機(jī)器去理解和學(xué)習(xí)人類的語言喜德,同時(shí)這些文本可以發(fā)揮最大的價(jià)值山橄,只有做到了這一點(diǎn),真正的“智能”才會變?yōu)椤翱赡堋薄?/strong>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末舍悯,一起剝皮案震驚了整個濱河市航棱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌萌衬,老刑警劉巖饮醇,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異秕豫,居然都是意外死亡朴艰,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進(jìn)店門混移,熙熙樓的掌柜王于貴愁眉苦臉地迎上來祠墅,“玉大人,你說我怎么就攤上這事沫屡。” “怎么了撮珠?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵沮脖,是天一觀的道長。 經(jīng)常有香客問我芯急,道長勺届,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任娶耍,我火速辦了婚禮免姿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘榕酒。我一直安慰自己胚膊,他們只是感情好故俐,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著紊婉,像睡著了一般药版。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上喻犁,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天槽片,我揣著相機(jī)與錄音,去河邊找鬼肢础。 笑死还栓,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的传轰。 我是一名探鬼主播剩盒,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼路召!你這毒婦竟也來了勃刨?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤股淡,失蹤者是張志新(化名)和其女友劉穎身隐,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體唯灵,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡贾铝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了埠帕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片垢揩。...
    茶點(diǎn)故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖敛瓷,靈堂內(nèi)的尸體忽然破棺而出叁巨,到底是詐尸還是另有隱情,我是刑警寧澤呐籽,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布锋勺,位于F島的核電站,受9級特大地震影響狡蝶,放射性物質(zhì)發(fā)生泄漏庶橱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一贪惹、第九天 我趴在偏房一處隱蔽的房頂上張望苏章。 院中可真熱鬧,春花似錦、人聲如沸枫绅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽撑瞧。三九已至棵譬,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間预伺,已是汗流浹背订咸。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留酬诀,地道東北人脏嚷。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像瞒御,于是被迫代替她去往敵國和親父叙。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容