本文主要摘錄自中金研究報告《自然語言處理成為企業(yè)數(shù)字化轉(zhuǎn)型的重要手段》
NLP(Natural Langunge Processing, 自然語言處理)就是用計算機對人類語言進行處理型凳,使得計算機具備人的聽眶明、說、讀、寫能力。該技術(shù)可使機器理解并解釋人類寫作和說話方式,是人工智能最早的應(yīng)用魂拦,也是現(xiàn)在關(guān)注度較高的領(lǐng)域。
NLP 技術(shù)大體可以分為自然語言理解(NLU)和自然語言生成(NLG)兩部分箭跳,NLU 主要結(jié)合語言學(xué)中的音韻學(xué)晨另、句法、語義等理論谱姓,像人類一樣對自然語言進行理解借尿;NLG 負責(zé)將理解后的內(nèi)容以一定結(jié)構(gòu)的文本信息輸出。
按照實現(xiàn)方式不同屉来,可以把 NLP 落地應(yīng)用分為對話機器人(語音語義問答)路翻、閱讀理解、智能搜索和機器翻譯 四種茄靠。這四種 NLP 技術(shù)在各行各業(yè)都能解決很多問題茂契。
1. 對話機器人
[ 基本思想 ] 機器通過對自然語言問題的理解,利用NLP技術(shù)找到相應(yīng)的答案慨绳,最后以搜索引擎查詢結(jié)果或者語音的形式輸出掉冶。
[ 落地場景 ] 按照應(yīng)用范圍的不同真竖,對話機器人可以分為通用型對話機器人與專業(yè)領(lǐng)域?qū)υ挋C器人。
1.1 通用型對話機器人
多用于 閑聊和咨詢?nèi)粘栴} 的場景厌小,該場景下用戶對于通用型對話機器人的問答準(zhǔn)確性要求不高恢共,更多關(guān)注體驗和效果。目前搭載通用型對話機器人的主要產(chǎn)品包括:
(1)Siri等手機助手璧亚,Cortana讨韭、小冰等PC助手
(2)Amazon Alexa、Google Home等智能音箱
由于用戶更重視通用型對話機器人的交互體驗癣蟋,因此相較于 Siri 等手機助手透硝,搭載語音交互,并且能夠在家居等特定場景完成各種任務(wù)的智能音箱更受到用戶青睞疯搅。 近年來濒生,通用性對話機器人呈現(xiàn)出兩個趨勢:一是語音交互體驗逐漸增強(語音合成技術(shù)起重要作用);二是 NLP 技術(shù)與問答準(zhǔn)確性將是影響智能音箱市占率的重要因素秉撇。
1.2 專業(yè)領(lǐng)域?qū)υ挋C器人
多用于特定場景甜攀、解決特定行業(yè)的問題。相較于通用型對話機器人琐馆,用戶端更關(guān)注專業(yè)領(lǐng)域?qū)υ挋C器人問答的準(zhǔn)確性规阀,服務(wù)端需要根據(jù)把問答和所處行業(yè)的專業(yè)知識庫、客戶關(guān)系系統(tǒng)瘦麸、供應(yīng)鏈等其它IT功能相結(jié)合谁撼。
專業(yè)領(lǐng)域問答機器人一般采用SaaS形式向B端商家賦能。具體應(yīng)用過程中滋饲,智能客服利用自然語言處理技術(shù)對語義進行分析厉碟,判斷顧客的意向,再給予相應(yīng)的回復(fù)或轉(zhuǎn)人工屠缭。相比單一的人工客服箍鼓,智能客服的優(yōu)勢主要體現(xiàn)在兩方面:一是省成本;二是24小時在線呵曹,全天候秒回款咖。目前專業(yè)領(lǐng)域?qū)υ挋C器人主要用于電商、醫(yī)療奄喂、金融等行業(yè)的智能客服铐殃。
(1)電商領(lǐng)域
阿里和樂言合作,推出淘寶客服服務(wù)跨新,把自動問答機器人與人工坐席相結(jié)合富腊,由機器人首先回答一些問題,當(dāng)碰到無法回答的問題域帐,可以由人工接手赘被。
京東推出客服機器人JIMI是整,通過分析用戶的語義,判斷客戶的情緒民假,給予更智能贰盗、有情感色彩的回復(fù)。
(2)醫(yī)療領(lǐng)域
通過智能的人機對話阳欲,醫(yī)療機構(gòu)可以使精確導(dǎo)診服務(wù)前置于掛號和就診前,提高醫(yī)療服務(wù)效率陋率,改善患者的就醫(yī)體驗球化。智能導(dǎo)診幫助解決了三類問題:一是根據(jù)癥狀診斷疾病瓦糟;二是根據(jù)疾病導(dǎo)診科室筒愚;三是直接掛號最匹配的科室大夫。
相比人工導(dǎo)診菩浙,智能導(dǎo)診具有全天24小時在線巢掺、可以匹配醫(yī)生且精確度更高的優(yōu)勢,能提高醫(yī)患雙方的效率和體驗劲蜻。
2018年陆淀,依圖科技聯(lián)合騰訊睿知和廣州市婦女兒童醫(yī)療中心推出“問診熊”問診小程序,可以識別518種婦女兒童醫(yī)療領(lǐng)域的疾病先嬉,涵蓋95%以上的領(lǐng)域常見疾病轧苫,醫(yī)生推薦準(zhǔn)確率達97.3%。
2. 閱讀理解
醫(yī)療疫蔓、教育含懊、金融、司法等眾多行業(yè)衅胀,存在大量的文本信息岔乔。很多文字產(chǎn)品篇幅很長,用戶需要從頭到尾讀完之后才能理解內(nèi)容滚躯。同時雏门,對長文本的校驗也是非常復(fù)雜的工作,需要耗費大量人力反復(fù)校驗哀九,卻不能保證準(zhǔn)確性剿配。利用NLP技術(shù),機器可以在輸入文本后完成:
2.1 數(shù)據(jù)結(jié)構(gòu)化
將原本雜亂的文本信息阅束,利用NLP技術(shù)對每段文字進行理解呼胚,并按照特定的規(guī)則將原始文本變成結(jié)構(gòu)化、可查詢的數(shù)據(jù)格式息裸,方便用戶使用蝇更。
典型的代表是AlphaSense(https://www.alpha-sense.com/index.html)沪编,一家成立于 2008 年的智能搜索引擎公司。 它從文件年扩、 新聞和研究報告等碎片化信息中集合所有投資信息蚁廓, 并進行語義分析, 整合相關(guān)概念厨幻、主題相嵌、行業(yè)等,方便用戶搜索况脆、瀏覽和分析和金融投資相關(guān)的重要數(shù)據(jù)點及整體趨勢饭宾。
2.2 校驗審核
[ 概? ? ? 要 ] 主要應(yīng)用于金融領(lǐng)域,可以極大提升投行/會計審計/銀行的效率和準(zhǔn)確性格了。
[ 行業(yè)痛點 ] 金融行業(yè)文本量大看铆、合規(guī)要求高,文本出現(xiàn)問題后果嚴(yán)重盛末。投行的申報材料和基礎(chǔ)底稿弹惦、會計師事務(wù)所的審計報告、銀行信貸業(yè)務(wù)的盡調(diào)和審批報告等悄但,對準(zhǔn)確度的要求都非常高棠隐,然而傳統(tǒng)的人工審核方式需要耗費大量人力,效率低檐嚣,而且很容易出錯宵荒。
[ 解決方案 ] 依據(jù)既定的規(guī)則和要求,機器可以利用NLP技術(shù)自動審核相應(yīng)文本净嘀,智能化檢查后快速出具審核報告报咳,批注錯誤并解釋判斷邏輯、提出修正建議挖藏。以招股書為例暑刃,系統(tǒng)可以實現(xiàn):
? 財務(wù)檢查:結(jié)合監(jiān)管機構(gòu)的披露指引和財務(wù)勾稽關(guān)系,對IPO文檔中披露的信息進行邏輯監(jiān)控膜眠,如各財務(wù)報表的會計科目平衡等岩臣。
??文本信息一致性審核:IPO過程中的申報材料、底稿達上千卷宵膨,系統(tǒng)可以實現(xiàn)同一文檔前后文的一致性架谎、多文件文本信息的一致性校驗。
??其他基礎(chǔ)性檢測:系統(tǒng)可以識別出錯別字辟躏、中英文標(biāo)點符號的錯用谷扣、專業(yè)名詞使用不規(guī)范等問題。
例如犀語科技為投行部門開發(fā)的IPO審核系統(tǒng)捎琐,提供錯別字識別会涎、第三方對比裹匙、多文件一致性檢測、財務(wù)檢查等功能末秃。
2.3 專家系統(tǒng)+醫(yī)療/司法
[ 概? ? ? 要 ] 主要應(yīng)用于醫(yī)療和司法領(lǐng)域概页,以輔助醫(yī)生和法官做出判決。
[ 行業(yè)痛點 ] 醫(yī)療和司法場景都存在大量非結(jié)構(gòu)化的文本信息练慕,而且具有很高的專業(yè)性惰匙。除此之外,醫(yī)療和司法場景都會不斷出現(xiàn)新的案例铃将,這對從業(yè)人員造成了一定的困惑徽曲。
[ 解決方案 ] 由于機器比人類擁有更快的存儲記憶能力,計算機利用NLP技術(shù)麸塞,對醫(yī)療/司法行業(yè)的專業(yè)知識、過往案例等進行大量學(xué)習(xí)涧衙,可以輔助醫(yī)生/法官進行疾病和案件的診斷和審判哪工。自然語言處理在智能輔診的典型應(yīng)用過程如下:
??從病歷、檢驗單弧哎、醫(yī)囑等醫(yī)療文本中提取患者的性別年齡雁比、臨床癥狀等關(guān)鍵信息,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成一致撤嫩、統(tǒng)一的表格等形式的結(jié)構(gòu)化數(shù)據(jù)
??基于提取出的信息偎捎,并且讓機器掌握醫(yī)生具備的醫(yī)療知識,構(gòu)建出顯示各類醫(yī)療信息之間關(guān)系的知識圖譜序攘,比如患者癥狀茴她、藥物、疾病診療等
??知識圖譜可以根據(jù)患者的癥狀診斷疾病程奠,或者根據(jù)特定的疾病推斷出未來可能出現(xiàn)的癥狀
2.4 輿情分析
[ 概? ? ? 要 ] 主要應(yīng)用于投資領(lǐng)域丈牢,輔助投資人做出投資決策。
[ 行業(yè)痛點 ] 金融資訊信息十分豐富瞄沙,難以靠人工閱讀并分析所有相關(guān)的資訊己沛,但這類定性數(shù)據(jù)對事件分析、決策輔助距境、監(jiān)控預(yù)警的重要性越來越顯著申尼。利用自然語言處理技術(shù),可以基于語義對包括公司新聞垫桂、市場行情师幕、宏觀經(jīng)濟、政策法規(guī)诬滩、社交媒體上的資訊予以抓取和語義分析们衙,監(jiān)控股民钾怔、機構(gòu)等對市場的態(tài)度,并通過知識圖譜技術(shù)建立事件之間的關(guān)聯(lián)關(guān)系蒙挑,可以實現(xiàn)實時監(jiān)控宗侦、輔助投資等功能。
[ 解決方案 ] 機器利用 NLP 技術(shù)忆蚀,對每一條輿情做情感分析矾利,判斷其對股價變動的影響,從而輔助做出投資決策馋袜。
??一家名為kensho(https://www.kensho.com/)的AI公司男旗,其主要產(chǎn)品為warren問答引擎,通過監(jiān)測財報發(fā)布欣鳖、全球數(shù)據(jù)環(huán)境察皇、經(jīng)濟報告、公司產(chǎn)品發(fā)布泽台、FDA藥品批準(zhǔn)等等多方面的信息什荣,建立起事件與資產(chǎn)之間的相關(guān)性,從而預(yù)測資產(chǎn)價格走勢怀酷。2017年初稻爬,該公司成功預(yù)測了特朗普當(dāng)選后, 美元重回漲勢蜕依, 以及科技股的反彈桅锄。
2.5 智能寫作
[ 概? ? ? 要 ] 主要應(yīng)用于傳媒領(lǐng)域,輔助媒體人自動寫稿样眠。
[ 行業(yè)痛點 ] 現(xiàn)在互聯(lián)網(wǎng)聚集海量文本友瘤,新聞、微博檐束、朋友圈商佑、微信公眾號、頭條號等地方每天會產(chǎn)生大量文章厢塘。但很多內(nèi)容作者投入大量精力握恳,實際閱讀量非常少闺属,內(nèi)容投入產(chǎn)出率較低蛛株。
[ 解決方案 ] 通過對大量的新聞文本進行語義分析和快速摘要扔字,可以快速形成熱點匯總類、新聞聚合類格嘁、事件盤點類的新聞稿件笛求,進行自動寫作和輔助寫作,提升新聞生產(chǎn)效率。
??今日頭條每天會產(chǎn)生很多新聞探入,2016 年頭條發(fā)布 “Xiaomingbot” 機器人狡孔,經(jīng)過 1 年多時間訓(xùn)練,“Xiaomingbot”已經(jīng)能夠?qū)戵w育蜂嗽、財經(jīng)苗膝、地產(chǎn)等多個行業(yè)的文章,而且文章的閱讀量和記者撰寫的文章非常接近植旧,大大提高了今日頭條的投入產(chǎn)出比辱揭。
??美國的Narrative Science,從結(jié)構(gòu)化數(shù)據(jù)中進行數(shù)據(jù)挖掘病附,并把結(jié)果用簡短的文字或依據(jù)模板產(chǎn)生報告內(nèi)容问窃。又如Automated Insights,它為美聯(lián)社自動寫出了10億多篇文章與報告完沪。
3. 機器翻譯
主要是使用機器將一種語言的源序列(句子域庇,段落,文檔)翻譯成相應(yīng)的目標(biāo)序列或另一種語言覆积,細節(jié)后續(xù)補充听皿。
4. 智能搜索
主要是實現(xiàn)語義搜索,細節(jié)后續(xù)補充技健。