產(chǎn)品 | NLP主要落地場景梳理

本文主要摘錄自中金研究報告《自然語言處理成為企業(yè)數(shù)字化轉(zhuǎn)型的重要手段

NLP(Natural Langunge Processing, 自然語言處理)就是用計算機對人類語言進行處理型凳,使得計算機具備人的聽眶明、說、讀、寫能力。該技術(shù)可使機器理解并解釋人類寫作和說話方式,是人工智能最早的應(yīng)用魂拦,也是現(xiàn)在關(guān)注度較高的領(lǐng)域。

NLP 技術(shù)大體可以分為自然語言理解(NLU)和自然語言生成(NLG)兩部分箭跳,NLU 主要結(jié)合語言學(xué)中的音韻學(xué)晨另、句法、語義等理論谱姓,像人類一樣對自然語言進行理解借尿;NLG 負責(zé)將理解后的內(nèi)容以一定結(jié)構(gòu)的文本信息輸出。

按照實現(xiàn)方式不同屉来,可以把 NLP 落地應(yīng)用分為對話機器人(語音語義問答)路翻、閱讀理解、智能搜索和機器翻譯 四種茄靠。這四種 NLP 技術(shù)在各行各業(yè)都能解決很多問題茂契。

1. 對話機器人

[ 基本思想 ] 機器通過對自然語言問題的理解,利用NLP技術(shù)找到相應(yīng)的答案慨绳,最后以搜索引擎查詢結(jié)果或者語音的形式輸出掉冶。

[ 落地場景 ] 按照應(yīng)用范圍的不同真竖,對話機器人可以分為通用型對話機器人與專業(yè)領(lǐng)域?qū)υ挋C器人。

1.1 通用型對話機器人

多用于 閑聊和咨詢?nèi)粘栴} 的場景厌小,該場景下用戶對于通用型對話機器人的問答準(zhǔn)確性要求不高恢共,更多關(guān)注體驗和效果。目前搭載通用型對話機器人的主要產(chǎn)品包括:

(1)Siri等手機助手璧亚,Cortana讨韭、小冰等PC助手

(2)Amazon Alexa、Google Home等智能音箱

由于用戶更重視通用型對話機器人的交互體驗癣蟋,因此相較于 Siri 等手機助手透硝,搭載語音交互,并且能夠在家居等特定場景完成各種任務(wù)的智能音箱更受到用戶青睞疯搅。 近年來濒生,通用性對話機器人呈現(xiàn)出兩個趨勢:一是語音交互體驗逐漸增強(語音合成技術(shù)起重要作用);二是 NLP 技術(shù)與問答準(zhǔn)確性將是影響智能音箱市占率的重要因素秉撇。

1.2 專業(yè)領(lǐng)域?qū)υ挋C器人

多用于特定場景甜攀、解決特定行業(yè)的問題。相較于通用型對話機器人琐馆,用戶端更關(guān)注專業(yè)領(lǐng)域?qū)υ挋C器人問答的準(zhǔn)確性规阀,服務(wù)端需要根據(jù)把問答和所處行業(yè)的專業(yè)知識庫、客戶關(guān)系系統(tǒng)瘦麸、供應(yīng)鏈等其它IT功能相結(jié)合谁撼。

專業(yè)領(lǐng)域問答機器人一般采用SaaS形式向B端商家賦能。具體應(yīng)用過程中滋饲,智能客服利用自然語言處理技術(shù)對語義進行分析厉碟,判斷顧客的意向,再給予相應(yīng)的回復(fù)或轉(zhuǎn)人工屠缭。相比單一的人工客服箍鼓,智能客服的優(yōu)勢主要體現(xiàn)在兩方面:一是省成本;二是24小時在線呵曹,全天候秒回款咖。目前專業(yè)領(lǐng)域?qū)υ挋C器人主要用于電商、醫(yī)療奄喂、金融等行業(yè)的智能客服铐殃。

(1)電商領(lǐng)域

阿里和樂言合作,推出淘寶客服服務(wù)跨新,把自動問答機器人與人工坐席相結(jié)合富腊,由機器人首先回答一些問題,當(dāng)碰到無法回答的問題域帐,可以由人工接手赘被。

京東推出客服機器人JIMI是整,通過分析用戶的語義,判斷客戶的情緒民假,給予更智能贰盗、有情感色彩的回復(fù)。

(2)醫(yī)療領(lǐng)域

通過智能的人機對話阳欲,醫(yī)療機構(gòu)可以使精確導(dǎo)診服務(wù)前置于掛號和就診前,提高醫(yī)療服務(wù)效率陋率,改善患者的就醫(yī)體驗球化。智能導(dǎo)診幫助解決了三類問題:一是根據(jù)癥狀診斷疾病瓦糟;二是根據(jù)疾病導(dǎo)診科室筒愚;三是直接掛號最匹配的科室大夫。

相比人工導(dǎo)診菩浙,智能導(dǎo)診具有全天24小時在線巢掺、可以匹配醫(yī)生且精確度更高的優(yōu)勢,能提高醫(yī)患雙方的效率和體驗劲蜻。

2018年陆淀,依圖科技聯(lián)合騰訊睿知和廣州市婦女兒童醫(yī)療中心推出“問診熊”問診小程序,可以識別518種婦女兒童醫(yī)療領(lǐng)域的疾病先嬉,涵蓋95%以上的領(lǐng)域常見疾病轧苫,醫(yī)生推薦準(zhǔn)確率達97.3%。

2. 閱讀理解

醫(yī)療疫蔓、教育含懊、金融、司法等眾多行業(yè)衅胀,存在大量的文本信息岔乔。很多文字產(chǎn)品篇幅很長,用戶需要從頭到尾讀完之后才能理解內(nèi)容滚躯。同時雏门,對長文本的校驗也是非常復(fù)雜的工作,需要耗費大量人力反復(fù)校驗哀九,卻不能保證準(zhǔn)確性剿配。利用NLP技術(shù),機器可以在輸入文本后完成:

2.1 數(shù)據(jù)結(jié)構(gòu)化

將原本雜亂的文本信息阅束,利用NLP技術(shù)對每段文字進行理解呼胚,并按照特定的規(guī)則將原始文本變成結(jié)構(gòu)化、可查詢的數(shù)據(jù)格式息裸,方便用戶使用蝇更。

典型的代表是AlphaSense(https://www.alpha-sense.com/index.html)沪编,一家成立于 2008 年的智能搜索引擎公司。 它從文件年扩、 新聞和研究報告等碎片化信息中集合所有投資信息蚁廓, 并進行語義分析, 整合相關(guān)概念厨幻、主題相嵌、行業(yè)等,方便用戶搜索况脆、瀏覽和分析和金融投資相關(guān)的重要數(shù)據(jù)點及整體趨勢饭宾。

2.2 校驗審核

[ 概? ? ? 要 ] 主要應(yīng)用于金融領(lǐng)域,可以極大提升投行/會計審計/銀行的效率和準(zhǔn)確性格了。

[ 行業(yè)痛點 ] 金融行業(yè)文本量大看铆、合規(guī)要求高,文本出現(xiàn)問題后果嚴(yán)重盛末。投行的申報材料和基礎(chǔ)底稿弹惦、會計師事務(wù)所的審計報告、銀行信貸業(yè)務(wù)的盡調(diào)和審批報告等悄但,對準(zhǔn)確度的要求都非常高棠隐,然而傳統(tǒng)的人工審核方式需要耗費大量人力,效率低檐嚣,而且很容易出錯宵荒。

[ 解決方案 ] 依據(jù)既定的規(guī)則和要求,機器可以利用NLP技術(shù)自動審核相應(yīng)文本净嘀,智能化檢查后快速出具審核報告报咳,批注錯誤并解釋判斷邏輯、提出修正建議挖藏。以招股書為例暑刃,系統(tǒng)可以實現(xiàn):

? 財務(wù)檢查:結(jié)合監(jiān)管機構(gòu)的披露指引和財務(wù)勾稽關(guān)系,對IPO文檔中披露的信息進行邏輯監(jiān)控膜眠,如各財務(wù)報表的會計科目平衡等岩臣。

??文本信息一致性審核:IPO過程中的申報材料、底稿達上千卷宵膨,系統(tǒng)可以實現(xiàn)同一文檔前后文的一致性架谎、多文件文本信息的一致性校驗。

??其他基礎(chǔ)性檢測:系統(tǒng)可以識別出錯別字辟躏、中英文標(biāo)點符號的錯用谷扣、專業(yè)名詞使用不規(guī)范等問題。

例如犀語科技為投行部門開發(fā)的IPO審核系統(tǒng)捎琐,提供錯別字識別会涎、第三方對比裹匙、多文件一致性檢測、財務(wù)檢查等功能末秃。

2.3 專家系統(tǒng)+醫(yī)療/司法

[ 概? ? ? 要 ] 主要應(yīng)用于醫(yī)療和司法領(lǐng)域概页,以輔助醫(yī)生和法官做出判決。

[ 行業(yè)痛點 ] 醫(yī)療和司法場景都存在大量非結(jié)構(gòu)化的文本信息练慕,而且具有很高的專業(yè)性惰匙。除此之外,醫(yī)療和司法場景都會不斷出現(xiàn)新的案例铃将,這對從業(yè)人員造成了一定的困惑徽曲。

[ 解決方案 ] 由于機器比人類擁有更快的存儲記憶能力,計算機利用NLP技術(shù)麸塞,對醫(yī)療/司法行業(yè)的專業(yè)知識、過往案例等進行大量學(xué)習(xí)涧衙,可以輔助醫(yī)生/法官進行疾病和案件的診斷和審判哪工。自然語言處理在智能輔診的典型應(yīng)用過程如下:

??從病歷、檢驗單弧哎、醫(yī)囑等醫(yī)療文本中提取患者的性別年齡雁比、臨床癥狀等關(guān)鍵信息,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成一致撤嫩、統(tǒng)一的表格等形式的結(jié)構(gòu)化數(shù)據(jù)

??基于提取出的信息偎捎,并且讓機器掌握醫(yī)生具備的醫(yī)療知識,構(gòu)建出顯示各類醫(yī)療信息之間關(guān)系的知識圖譜序攘,比如患者癥狀茴她、藥物、疾病診療等

??知識圖譜可以根據(jù)患者的癥狀診斷疾病程奠,或者根據(jù)特定的疾病推斷出未來可能出現(xiàn)的癥狀

2.4 輿情分析

[ 概? ? ? 要 ] 主要應(yīng)用于投資領(lǐng)域丈牢,輔助投資人做出投資決策。

[ 行業(yè)痛點 ] 金融資訊信息十分豐富瞄沙,難以靠人工閱讀并分析所有相關(guān)的資訊己沛,但這類定性數(shù)據(jù)對事件分析、決策輔助距境、監(jiān)控預(yù)警的重要性越來越顯著申尼。利用自然語言處理技術(shù),可以基于語義對包括公司新聞垫桂、市場行情师幕、宏觀經(jīng)濟、政策法規(guī)诬滩、社交媒體上的資訊予以抓取和語義分析们衙,監(jiān)控股民钾怔、機構(gòu)等對市場的態(tài)度,并通過知識圖譜技術(shù)建立事件之間的關(guān)聯(lián)關(guān)系蒙挑,可以實現(xiàn)實時監(jiān)控宗侦、輔助投資等功能。

[ 解決方案 ] 機器利用 NLP 技術(shù)忆蚀,對每一條輿情做情感分析矾利,判斷其對股價變動的影響,從而輔助做出投資決策馋袜。

??一家名為kensho(https://www.kensho.com/)的AI公司男旗,其主要產(chǎn)品為warren問答引擎,通過監(jiān)測財報發(fā)布欣鳖、全球數(shù)據(jù)環(huán)境察皇、經(jīng)濟報告、公司產(chǎn)品發(fā)布泽台、FDA藥品批準(zhǔn)等等多方面的信息什荣,建立起事件與資產(chǎn)之間的相關(guān)性,從而預(yù)測資產(chǎn)價格走勢怀酷。2017年初稻爬,該公司成功預(yù)測了特朗普當(dāng)選后, 美元重回漲勢蜕依, 以及科技股的反彈桅锄。

2.5 智能寫作

[ 概? ? ? 要 ] 主要應(yīng)用于傳媒領(lǐng)域,輔助媒體人自動寫稿样眠。

[ 行業(yè)痛點 ] 現(xiàn)在互聯(lián)網(wǎng)聚集海量文本友瘤,新聞、微博檐束、朋友圈商佑、微信公眾號、頭條號等地方每天會產(chǎn)生大量文章厢塘。但很多內(nèi)容作者投入大量精力握恳,實際閱讀量非常少闺属,內(nèi)容投入產(chǎn)出率較低蛛株。

[ 解決方案 ] 通過對大量的新聞文本進行語義分析和快速摘要扔字,可以快速形成熱點匯總類、新聞聚合類格嘁、事件盤點類的新聞稿件笛求,進行自動寫作和輔助寫作,提升新聞生產(chǎn)效率。

??今日頭條每天會產(chǎn)生很多新聞探入,2016 年頭條發(fā)布 “Xiaomingbot” 機器人狡孔,經(jīng)過 1 年多時間訓(xùn)練,“Xiaomingbot”已經(jīng)能夠?qū)戵w育蜂嗽、財經(jīng)苗膝、地產(chǎn)等多個行業(yè)的文章,而且文章的閱讀量和記者撰寫的文章非常接近植旧,大大提高了今日頭條的投入產(chǎn)出比辱揭。

??美國的Narrative Science,從結(jié)構(gòu)化數(shù)據(jù)中進行數(shù)據(jù)挖掘病附,并把結(jié)果用簡短的文字或依據(jù)模板產(chǎn)生報告內(nèi)容问窃。又如Automated Insights,它為美聯(lián)社自動寫出了10億多篇文章與報告完沪。

3. 機器翻譯

主要是使用機器將一種語言的源序列(句子域庇,段落,文檔)翻譯成相應(yīng)的目標(biāo)序列或另一種語言覆积,細節(jié)后續(xù)補充听皿。

4. 智能搜索

主要是實現(xiàn)語義搜索,細節(jié)后續(xù)補充技健。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市惰拱,隨后出現(xiàn)的幾起案子雌贱,更是在濱河造成了極大的恐慌,老刑警劉巖偿短,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件欣孤,死亡現(xiàn)場離奇詭異,居然都是意外死亡昔逗,警方通過查閱死者的電腦和手機降传,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來勾怒,“玉大人婆排,你說我怎么就攤上這事”柿矗” “怎么了段只?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鉴扫。 經(jīng)常有香客問我赞枕,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任炕婶,我火速辦了婚禮姐赡,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘柠掂。我一直安慰自己项滑,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布陪踩。 她就那樣靜靜地躺著杖们,像睡著了一般。 火紅的嫁衣襯著肌膚如雪肩狂。 梳的紋絲不亂的頭發(fā)上摘完,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天,我揣著相機與錄音傻谁,去河邊找鬼孝治。 笑死,一個胖子當(dāng)著我的面吹牛审磁,可吹牛的內(nèi)容都是我干的谈飒。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼态蒂,長吁一口氣:“原來是場噩夢啊……” “哼杭措!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起钾恢,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤手素,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后瘩蚪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體泉懦,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年疹瘦,在試婚紗的時候發(fā)現(xiàn)自己被綠了崩哩。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡言沐,死狀恐怖邓嘹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情险胰,我是刑警寧澤吴超,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站鸯乃,受9級特大地震影響鲸阻,放射性物質(zhì)發(fā)生泄漏跋涣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一鸟悴、第九天 我趴在偏房一處隱蔽的房頂上張望陈辱。 院中可真熱鬧,春花似錦细诸、人聲如沸沛贪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽利赋。三九已至,卻和暖如春猩系,著一層夾襖步出監(jiān)牢的瞬間媚送,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工寇甸, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留塘偎,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓拿霉,卻偏偏與公主長得像吟秩,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子绽淘,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,055評論 2 355