歡迎大家來(lái)到第二章的第五節(jié)扰柠,UNIT的整體介紹。
上一節(jié)課我們介紹了需要搭建一個(gè)對(duì)話系統(tǒng)的五個(gè)步驟,這節(jié)課我們先來(lái)復(fù)習(xí)一下:
1. 我們需要定義對(duì)話系統(tǒng)侵佃;
2. 我們需要富集數(shù)據(jù)資源苔埋;
3. 我們需要搭建系統(tǒng)、訓(xùn)練姐扮、評(píng)價(jià)和調(diào)優(yōu);
4. 我們需要系統(tǒng)接入衣吠;
5. 我們需要進(jìn)行運(yùn)營(yíng)迭代茶敏;
在第五步我們需要將結(jié)果反饋到第二步以及第三步上,通過運(yùn)營(yíng)數(shù)據(jù)缚俏,更好的收集數(shù)據(jù)資源進(jìn)而更好的搭建系統(tǒng)惊搏。
給大家舉一個(gè)例子:百度的地圖語(yǔ)音交互項(xiàng)目,經(jīng)過了數(shù)個(gè)深度學(xué)習(xí)對(duì)話系統(tǒng)忧换,NLP數(shù)據(jù)挖掘資深工程師恬惯,他們花了一年多的時(shí)間,寫了超過10萬(wàn)行的NLP和DNN代碼亚茬,經(jīng)過了十余個(gè)大版本的版本迭代酪耳,通過了上億對(duì)的對(duì)話數(shù)據(jù)和上億個(gè)地址數(shù)據(jù),才完成了我們現(xiàn)在看到的百度的地圖語(yǔ)音交互項(xiàng)目刹缝。
我們會(huì)發(fā)現(xiàn)碗暗,從頭搭建一個(gè)好用的對(duì)話系統(tǒng),是需要非常高的成本和代價(jià)的梢夯。對(duì)于小公司來(lái)言疗,如果不善用工具,擁有一個(gè)智能的對(duì)話系統(tǒng)是一件非常困難的事情厨疙。
這節(jié)課我給大家介紹一個(gè)特別好用的搭建對(duì)話系統(tǒng)的工具--****UNIT洲守。有了UNIT之后疑务,只要熟悉業(yè)務(wù)邏輯沾凄,就可以很輕松的成為對(duì)話系統(tǒng)訓(xùn)練專家梗醇。
同樣還是五個(gè)步驟,我們每一個(gè)步驟進(jìn)行一個(gè)一個(gè)的說(shuō)一下:
定義對(duì)話系統(tǒng):UNIT會(huì)為你提供高質(zhì)量高可干預(yù)的預(yù)置技能撒蟀,助力你定義對(duì)話系統(tǒng)叙谨;
富集數(shù)據(jù)資源:直接擁有通過百度大數(shù)據(jù),智能引擎保屯,智能推薦引擎的超過40個(gè)的預(yù)置詞槽手负;
搭建系統(tǒng)、訓(xùn)練姑尺、評(píng)估和調(diào)優(yōu):UNIT是一個(gè)真實(shí)應(yīng)用打磨的對(duì)話系統(tǒng)竟终,擁有最懂中文的自然語(yǔ)言理解(NLU)技術(shù)∏畜可以快速的幫助業(yè)務(wù)人員搭建系統(tǒng)统捶,甚至一行代碼都不用寫,就可以直接搭建我們的對(duì)話系統(tǒng)柄粹;
系統(tǒng)接入:UNIT集成了微信公眾號(hào)的一鍵接入喘鸟,并且有完善的iOS、安卓的sdk驻右;
運(yùn)營(yíng)迭代:UNIT增加了AI加持的反饋分析和學(xué)習(xí)機(jī)制什黑,通過反饋的內(nèi)容,持續(xù)優(yōu)化數(shù)據(jù)堪夭;
簡(jiǎn)單的說(shuō)愕把,有了UNIT后,搭建對(duì)話系統(tǒng)就不一定需要專業(yè)的編程人員森爽,對(duì)話系統(tǒng)開發(fā)工程師和算法工程師礼华,只需要讓熟悉業(yè)務(wù)的人維護(hù)語(yǔ)言模型就可以了。懂業(yè)務(wù)的人定義好它的業(yè)務(wù)邏輯拗秘,并根據(jù)UNIT進(jìn)行一步一步的操作圣絮,只需要簡(jiǎn)單的幾行開發(fā)和部署對(duì)接到消息系統(tǒng)中,這樣可以免費(fèi)享用百度NLP多年的研究成果雕旨。
換句話說(shuō)扮匠,我們是站在巨人的肩膀上,開發(fā)我們自己的對(duì)話系統(tǒng)凡涩。
- UNIT概述
UNIT是一個(gè)建立在百度多年的自然語(yǔ)言處理和對(duì)話技術(shù)積累和大數(shù)據(jù)的基礎(chǔ)上的對(duì)話系統(tǒng)的平臺(tái)棒搜,她是一個(gè)面向第三方提供的對(duì)話系統(tǒng)生成器,對(duì)話系統(tǒng)的搭建工具活箕。
- UNIT技術(shù)特色
它的技術(shù)特色有四塊:
- 平臺(tái)非常的簡(jiǎn)單力麸,易學(xué)易用,不需要具備算法的基礎(chǔ),五步就可以訓(xùn)練一個(gè)對(duì)話機(jī)器人克蚂;
新建bot闺鲸;
添加技能;
標(biāo)注數(shù)據(jù)埃叭;
訓(xùn)練優(yōu)化摸恍;
發(fā)布上線;
對(duì)話管理更加貼近真人赤屋,領(lǐng)先的NLP技術(shù)立镶、海量的大數(shù)據(jù)、多輪交互类早、自動(dòng)澄清媚媒、主動(dòng)引導(dǎo),對(duì)話更貼近真人涩僻;
門檻非常的低缭召,只需要少量的語(yǔ)料,就可以實(shí)現(xiàn)強(qiáng)大的泛化效果令哟,輕松對(duì)接微信恼琼、手機(jī)App、網(wǎng)站和硬件等等屏富;
UNIT的機(jī)制非常靈活晴竞,并且持續(xù)進(jìn)行優(yōu)化。同時(shí)擁有高可干預(yù)的預(yù)置技能狠半、勾選調(diào)用噩死、靈活調(diào)整、對(duì)話系統(tǒng)持續(xù)優(yōu)化神年,你的機(jī)器人越來(lái)越聰明已维;
- UNIT概覽
搭建對(duì)話機(jī)器人需要開發(fā)者先進(jìn)行數(shù)據(jù)標(biāo)注、搭建領(lǐng)域知識(shí)和交互邏輯已日,開發(fā)你自己的領(lǐng)域?qū)υ挳a(chǎn)品垛耳。對(duì)應(yīng)的UNIT 有以下的能力:
一、理解技術(shù):
多知識(shí)融合的意圖理解飘千;
基于大數(shù)據(jù)的聯(lián)合詞槽識(shí)別堂鲜;
二、問答技術(shù):
- 依托海量?jī)?yōu)質(zhì)數(shù)據(jù)的語(yǔ)義匹配
三护奈、交互技術(shù):
面向任務(wù)的多輪交互技術(shù)缔莲;
面向問答的多輪交互技術(shù);
四霉旗、大數(shù)據(jù)的助力:
知識(shí)推薦的加速模型迭代痴奏;
訓(xùn)練師模式助力零門檻標(biāo)注蛀骇;
UNIT有NLP的基礎(chǔ)技術(shù),機(jī)器學(xué)習(xí)能力和百度大數(shù)據(jù)读拆,幫助不懂算法而懂業(yè)務(wù)的人搭建對(duì)話系統(tǒng)擅憔,是一個(gè)非常好用的對(duì)話系統(tǒng)生成器。
- UNIT提供預(yù)置技能建椰,最低成本創(chuàng)建對(duì)話系統(tǒng)
以上是UNIT提供的預(yù)置技能雕欺,幫助業(yè)務(wù)人員最低成本最快速度的搭建對(duì)話系統(tǒng)岛马,平均解析準(zhǔn)確率超過90%棉姐。應(yīng)用領(lǐng)域包括但不限于:家庭娛樂;智能車載啦逆;智能客服伞矩;服務(wù)機(jī)器人。
我們?cè)诘诙€(gè)小節(jié)介紹的對(duì)話系統(tǒng)的分類里有任務(wù)型的機(jī)器人和問答型的機(jī)器人夏志,應(yīng)用場(chǎng)景包括智能助理乃坤、會(huì)議系統(tǒng),健身系統(tǒng)等等沟蔑。這些都可以用UNIT進(jìn)行簡(jiǎn)單的配置實(shí)現(xiàn)湿诊。
- UNIT平臺(tái)案例
這是一個(gè)UNIT平臺(tái)的案例,用戶說(shuō):“我要去北京南站瘦材,不走高速”厅须。UNIT 可以識(shí)別到用戶的目的地是北京南站,偏好是不走高速食棕。
因此進(jìn)一步可以實(shí)現(xiàn)這樣的對(duì)話對(duì):導(dǎo)航問:“請(qǐng)問您要去哪里朗和?”,“已為您規(guī)劃到北京首都機(jī)場(chǎng)的路線簿晓,有避開高速”眶拉,“好的”。
再比如說(shuō):“限號(hào)策略”憔儿,那么回答:“限號(hào)策略是2008年10月1日在北京市發(fā)布的”忆植。
UNIT平臺(tái)可以提供很好的任務(wù)型和問答型對(duì)話系統(tǒng)的解決方案。
- 全渠道接入
UNIT支持全渠道的接入谒臼,她包括了訓(xùn)練服務(wù)朝刊、數(shù)據(jù)模型,管理模塊和對(duì)話服務(wù)模塊屋休。
對(duì)話服務(wù)模塊支持全渠道接入坞古,包括HttpAPI、DuerOS劫樟、iOS痪枫、安卓织堂,微信等等。只要你能想到的奶陈,基本上UNIT都能夠覆蓋到易阳。
再一個(gè)是服務(wù)管理模塊,登陸unit.baidu.com吃粒,有非常好用的管理API幫助你去管理潦俺。
介紹了UNIT之后,我們?cè)俳榻B一下UNIT的一個(gè)非常強(qiáng)大的工具徐勃,叫做DMKit事示。
DMKit是一個(gè)開源的對(duì)話管理框架。
- UNIT系統(tǒng)構(gòu)成
我們先來(lái)看一下對(duì)話系統(tǒng)的構(gòu)成:
當(dāng)用戶說(shuō)一句話的時(shí)候僻肖,需要通過對(duì)話理解技術(shù)肖爵,比如說(shuō)我要訂一張北京到上海的機(jī)票,識(shí)別出到訂票意圖和詞槽(北京和上海)臀脏。這些我們叫它對(duì)話理解劝堪,在云端的對(duì)話理解。
下一步是對(duì)話的管理揉稚,當(dāng)用戶說(shuō)了北京到上海秒啦,我們拿到這些詞槽以及意圖后,下一步機(jī)器人應(yīng)該如何引導(dǎo)用戶給出更多重要的信息搀玖,包括機(jī)器人收集到所有的詞槽后余境,如何完成對(duì)話任務(wù)并給出搜索到的機(jī)票信息。這個(gè)過程叫做資源的檢索與任務(wù)的執(zhí)行巷怜。
第一步更多在云端的對(duì)話叫做云端的對(duì)話理解葛超,將一句話分成意圖和實(shí)體,也就是用戶的目的地等參數(shù)對(duì)延塑。
第二步是針對(duì)高級(jí)開發(fā)者的绣张,根據(jù)拿到的意圖和參數(shù)對(duì),通過代碼進(jìn)行靈活的對(duì)話管理关带。接下來(lái)我詳細(xì)的給大家介紹DMKit侥涵,一個(gè)開源的對(duì)話管理解決方案。
- DMKit 開源對(duì)話管理方案
我們?cè)賮?lái)回顧一下這張圖宋雏,對(duì)話理解芜飘,對(duì)話管理,資源檢索和答復(fù)生成磨总,靈活的和知識(shí)庫(kù)及外部的服務(wù)進(jìn)行交互嗦明,這是DMKit的一個(gè)優(yōu)勢(shì)。同時(shí)蚪燕,DMKit 還有很多獨(dú)特的優(yōu)勢(shì)娶牌,包括完整的離線框架奔浅、圖形化對(duì)話管理、搭建門檻更低诗良、開發(fā)更簡(jiǎn)單汹桦、無(wú)縫對(duì)接云端、輕松易用等鉴裹。
開發(fā)的同學(xué)可以去github上看一下舞骆,這是github上的地址:https://github.com/baidu/unit-dmkit,通過代碼管理是更高級(jí)的搭建對(duì)話的玩法径荔,處理更加靈活督禽。
當(dāng)用戶說(shuō)一句話的時(shí)候,通過語(yǔ)音識(shí)別講語(yǔ)音轉(zhuǎn)成文字猖凛,UNIT 分析后赂蠢,放在DMKit 中拿到對(duì)話狀態(tài)绪穆。根據(jù)對(duì)話的狀態(tài)跳轉(zhuǎn)到不同的策略辨泳,再跳轉(zhuǎn)到不同的對(duì)話狀態(tài)。外面可以調(diào)用UNIT的解析服務(wù)以及知識(shí)庫(kù)玖院,最后升到了不同的對(duì)話狀態(tài)之后菠红,再通過ASR反饋到系統(tǒng),再去和用戶進(jìn)行應(yīng)答难菌。
- DMKit 在百度支撐了工業(yè)級(jí)的真實(shí)流量
以上簡(jiǎn)單的介紹了DMKit试溯,我會(huì)在稍后的課程介紹更詳細(xì)的內(nèi)容,主要是面向開發(fā)者的郊酒。
在百度里遇绞,DMKit 支撐了工業(yè)級(jí)的真實(shí)的流量,比如說(shuō)小度機(jī)器人燎窘,小度聊球和百度的車載語(yǔ)音系統(tǒng)都用到了DMKit摹闽,開發(fā)者可以放心使用。
- 如何優(yōu)化理解能力
第三塊是要介紹的是UNIT的持續(xù)學(xué)習(xí)能力褐健,也就是如何優(yōu)化機(jī)器的理解能力付鹿。
舉個(gè)例子說(shuō),“我要去北京火車站蚜迅,哎呀舵匾,那個(gè)啥,幫我導(dǎo)航去北京站谁不,要快一點(diǎn)的路線坐梯。我要從西二旗出發(fā),先去西單刹帕,再去南鑼鼓巷吵血,然后去后海馏段,最后去北京站趕火車,幫我規(guī)劃一條紅綠燈少的不堵車的最快的路線吧”践瓷。
通過理解模型和大量的訓(xùn)練數(shù)據(jù)院喜,UNIT會(huì)自動(dòng)的一點(diǎn)一點(diǎn)的優(yōu)化它的理解能力。
- 可終身進(jìn)化的對(duì)話理解技術(shù)
UNIT是一個(gè)可終身進(jìn)化的對(duì)話理解技術(shù)晕翠。通過自定義技能和預(yù)置技能加上語(yǔ)料喷舀,模版,問答對(duì)淋肾,知識(shí)圖譜和詞典可以優(yōu)化對(duì)話理解技術(shù)硫麻。在對(duì)話理解技術(shù)中,包括了內(nèi)系統(tǒng)內(nèi)置的對(duì)話管理技術(shù)和用戶定制的多引擎驅(qū)動(dòng)的SLU樊卓。多引擎渠道的SLU包括啟發(fā)式SLU拿愧,DNN-SLU和IR-SLU,它可以再的反饋回到整個(gè)外面的自定義技能和預(yù)置技能里碌尔。
我們會(huì)發(fā)現(xiàn)浇辜,UNIT是在持續(xù)不停的迭代過程,通過和用戶的交互唾戚,用戶在后臺(tái)的配置柳洋,可以實(shí)現(xiàn)機(jī)器的自學(xué)習(xí)和自進(jìn)化,進(jìn)而機(jī)器人會(huì)更加聰明叹坦。
再舉一個(gè)例子熊镣,讓UNIT像人一樣在交流中學(xué)習(xí),比如說(shuō)募书,我問機(jī)器人梅球王進(jìn)了幾個(gè)球绪囱,機(jī)器人不知道梅球王是誰(shuí),機(jī)器人就會(huì)問我莹捡,梅球王是誰(shuí)鬼吵?然后我告訴它梅球王是梅西,那機(jī)器人待會(huì)兒就會(huì)直接回答我梅西進(jìn)了一個(gè)球道盏。
下一次而柑,你再跟它說(shuō)梅球王的時(shí)候,它就記住了荷逞。所以你只要不停的跟機(jī)器人去聊天媒咳,機(jī)器人就能夠?qū)W習(xí),然后優(yōu)化自己的對(duì)話系統(tǒng)种远。
- 主動(dòng)學(xué)習(xí)
我們看到這樣一個(gè)圖涩澡,研發(fā)人員通過數(shù)百條的數(shù)據(jù)搭建,搭建初始模型坠敷,訓(xùn)練師通過1到2天的對(duì)話實(shí)戰(zhàn)練習(xí)妙同,用戶通過大量的交互反饋持續(xù)學(xué)習(xí)射富,系統(tǒng)可以在對(duì)話中向所有人去學(xué)習(xí)。那么你只需要做的事就是跟它聊一聊粥帚,聊了之后胰耗,機(jī)器人就會(huì)變得越來(lái)越聰明。
- UNIT完整的系統(tǒng)推動(dòng)效果優(yōu)化
我們看到這是UNIT完整的系統(tǒng)來(lái)持續(xù)推動(dòng)效果優(yōu)化芒涡,線上對(duì)話我們?nèi)ゲ杉玫搅瞬竦疲琔NIT會(huì)自動(dòng)采集得到日志系統(tǒng),然后進(jìn)行對(duì)話反饋费尽。正確的我們會(huì)有漏識(shí)別和誤識(shí)別的赠群,正確的我們都會(huì)收集出來(lái),然后只是提煉旱幼,得到一些訓(xùn)練的數(shù)據(jù)查描,然后在反饋給服務(wù)上,然后進(jìn)行持續(xù)的學(xué)習(xí)和效果優(yōu)化柏卤。
整個(gè)UNIT系統(tǒng)是符合我們上面說(shuō)的對(duì)話系統(tǒng)的生命周期冬三。換句話說(shuō)你只要在UNIT去搭建,就可以很好的去對(duì)話系統(tǒng)的生命周期闷旧。
從最開始的定義长豁、搭建、接入忙灼,到后面的我們?nèi)タ磾?shù)據(jù)去反饋,再回過頭來(lái)更好的定義搭建钝侠。
- UNIT 日志分析系統(tǒng)
這是UNIT的日志對(duì)話分析系統(tǒng)该园,一個(gè)新的bot模型,通過對(duì)話系統(tǒng)的日志分析帅韧,分析出已識(shí)別到的意圖里初、未識(shí)別到的意圖和識(shí)別錯(cuò)的意圖,再去拿用戶的需求忽舟,找到bot覆蓋到的高頻需求双妨,bot覆蓋到的低頻需求,bot沒有覆蓋到的高頻需求和bot沒有覆蓋到的低頻需求叮阅,然后將這些再反饋到bot定義里邊刁品,去優(yōu)化bot的定義。然后再進(jìn)一步的訓(xùn)練bot浩姥,再造一個(gè)新bot模型挑随。
這樣我們會(huì)發(fā)現(xiàn),我們從0.1勒叠、0.2兜挨、0.3到1.1膏孟、1.2,隨著這個(gè)模型拌汇,我們一點(diǎn)一點(diǎn)地通過大量的真實(shí)場(chǎng)景去迭代柒桑,逐漸搭建一個(gè)越來(lái)越好用的機(jī)器人。
建議大家現(xiàn)在就立刻著手去搭建噪舀。搭建的越早幕垦,上線的越早,你的機(jī)器人就越早被你的用戶所訓(xùn)練傅联,你的機(jī)器人就越早變得越聰明先改。
最后給介紹一下UNIT的應(yīng)用場(chǎng)景。
- 應(yīng)用場(chǎng)景
UNIT不止能應(yīng)用在我之前介紹的各種應(yīng)用場(chǎng)景蒸走,基本上已經(jīng)覆蓋了所有的行業(yè)仇奶。
不論是金融、制造業(yè)比驻、汽車業(yè)该溯、客服、銀行别惦、媒體狈茉、旅游、教育掸掸、安防氯庆、餐飲等。UNIT提供的是一種對(duì)話式的智能系統(tǒng)扰付,所以我們可以發(fā)現(xiàn)UNIT可以應(yīng)用在各行各業(yè)堤撵,有興趣的小伙伴快來(lái)試試吧!
謝謝大家羽莺。