chatbot的原理是什么葵萎?
人機(jī)對話通常是靠背后的數(shù)據(jù)庫 & 文本檢索支撐,然而數(shù)據(jù)庫覆蓋不到海量人類對話怎么辦囊陡?還有幾個(gè)解決思路:
- 語言模型呆瞻,可以把它看作各種語言規(guī)則的疊加彩匕,能夠覆蓋大約20%的問題墓造,但準(zhǔn)確度很差柴我。
- 生成式對話解寝,模仿翻譯模型進(jìn)行的逐字映射,在用于訓(xùn)練的樣本集內(nèi)生成效果很好艘儒,樣本集外準(zhǔn)確度不高聋伦。
- 萬金油回復(fù)夫偶,走完所有流程依然得不到一個(gè)好的回復(fù),就拋出萬能隨機(jī)語觉增。這種情況下的準(zhǔn)確度往往比前兩者還高出些許兵拢。
檢索部分利用的是相似度算法,顧名思義逾礁,相似度即是比對輸入的一句話與庫中現(xiàn)存文本的相似程度卵佛,并取出答案;實(shí)現(xiàn)相似度計(jì)算敞斋,又需要借助切詞、句法分析疾牲、實(shí)體抽取等等植捎。
那么輸入和輸出之間疊加了如此多復(fù)雜的環(huán)節(jié),是不是意味著我們就可以得到一個(gè)體驗(yàn)比較好的chatbot了阳柔?
答案是NO焰枢。
在深度學(xué)習(xí)技術(shù)廣泛運(yùn)用于視覺領(lǐng)域、聲音領(lǐng)域的今天舌剂,文本處理依然存在著難以逾越的技術(shù)鴻溝济锄;在處理龐雜的非結(jié)構(gòu)化文本上,機(jī)器學(xué)習(xí)帶來的提升往往不如人工編輯答案來的直接霍转。
而前期對文本數(shù)據(jù)進(jìn)行預(yù)處理的環(huán)節(jié)也帶來了巨大損耗荐绝,包括文本的清洗、抽取等避消,更何況現(xiàn)在用戶數(shù)據(jù)保密性越來越受到重視低滩,獲取高質(zhì)量的自然對話數(shù)據(jù)由技術(shù)問題轉(zhuǎn)變成了商務(wù)合作問題。
這說明什么岩喷?
以目前的技術(shù)水平恕沫,實(shí)現(xiàn)chatbot還是要借助自然對話的語料積累。一個(gè)以chatbot作為核心技術(shù)創(chuàng)業(yè)的公司纱意,必須深諳市場與產(chǎn)品化的哲學(xué)婶溯,否則很快就會喪失生存空間。
而SNS類公司具備文本積累的天然優(yōu)勢偷霉,例如新浪微博迄委。機(jī)器學(xué)習(xí)算法又不存在門檻。聊天機(jī)器人 —— 披著光鮮的AI外衣类少,實(shí)際上做的大部分是臟活累活跑筝,雖然可以形成有效的迭代周期,但無法短平快地進(jìn)行產(chǎn)品定位調(diào)整瞒滴。
短板必須依托技術(shù)躍遷才有可能帶來突破曲梗。能做出卓越貢獻(xiàn)的通常是MIT赞警,GOOGLE這類研發(fā)實(shí)力雄厚的機(jī)構(gòu)或公司,能力集成公司只有默默地等待開源代碼虏两。
沒有一點(diǎn)好消息嗎愧旦?
這些年來市場對chatbot產(chǎn)品依然保持著旺盛的需求,一個(gè)會摔倒會賣蠢的虛擬貓就輕易讓用戶投入上千句對話定罢,那么加入其它能力(功能笤虫、問答,甚至人臉識別祖凫、語音合成等)之后呢琼蚯,用戶黏性會提升嗎?
可以惠况,但效果不明顯遭庶。而且前提是你的機(jī)器人對白顯得沒有那么無聊。打個(gè)比方稠屠,一個(gè)“不無聊”的示例:
用戶:你好
BOT:找我干嘛峦睡?
一個(gè)“無聊”的示例:
用戶:你好
BOT:你也好
想讓用戶無休止地和機(jī)器人聊下去,單純保證準(zhǔn)確度是不夠的权埠。這其中包含兩個(gè)要素:
準(zhǔn)確度是底線榨了。不能總是答非所問,這取決于數(shù)據(jù)庫的數(shù)量與QA關(guān)聯(lián)度攘蔽;
有趣的對白龙屉。人工編輯答案聊起來反而缺乏激情,即使它準(zhǔn)確度足夠高满俗。自然產(chǎn)生的對話往往那么不經(jīng)意叔扼,試想正在撩妹的你和正在撩機(jī)器人的你,你會對哪個(gè)更上心漫雷,你會對一個(gè)機(jī)器人刻意幽默嗎瓜富?
就算一定程度上解決了上述這兩個(gè)難題,chatbot還存在一個(gè)致命缺陷:
前言不搭后語降盹,邏輯不通 —— 沒有上下文与柑。一個(gè)典型的例子:
用戶:你在干嘛?
BOT:我在陪女朋友逛街
用戶:你有女朋友蓄坏?
BOT:怎么可能价捧,我是女的
對于一些邏輯嚴(yán)密的用戶,遇到這種對話會直接放棄涡戳。好在我們的用戶并不都是這樣的结蟋,如果他們愿意,還是會嘗試順著對話繼續(xù)往下聊渔彰。
有時(shí)候嵌屎,聰明的PM們也會故意制造問題推正,讓用戶贏得心理優(yōu)勢,從而提升CPS —— 平均交互輪次:比如故意輸?shù)舫烧Z接龍宝惰、用戶輸入講笑話的指令時(shí)植榕,故意不講等等,這些小心機(jī)也會起到一些效果尼夺,但都無法解決根本問題尊残。
此外,分類問題也很棘手淤堵。當(dāng)用戶輸入一個(gè)query時(shí)寝衫,他到底是想要閑聊呢,還是在認(rèn)真地提問拐邪?機(jī)器人很難通過分類將“你爸爸是做什么工作的慰毅?”正確地歸類到聊天,而不是知識性問答庙睡。我們所指的知識性問答,通常是“人為什么會呼吸”技俐、“天為什么是藍(lán)的”這類具有普遍正確性的問題乘陪。
看起來,chatbot的未來似乎很渺茫
2015年是人工智能的一次浪潮雕擂,站在2017年年初的時(shí)間點(diǎn)上來看啡邑,浪潮正在衰退。在通用域進(jìn)行淺嘗輒止后隨之放棄井赌,轉(zhuǎn)作垂直場景的谤逼,如智能家居、車載系統(tǒng)的大有人在仇穗。而siri流部、echo這類產(chǎn)品憑借出色的燒錢能力,即使短期內(nèi)無法商業(yè)化纹坐,也可以依托強(qiáng)大的平臺迭代下去枝冀。
創(chuàng)業(yè)公司用一整年的時(shí)間調(diào)整策略,摸索的結(jié)果是又回到了解決方案提供商的角色耘子。這個(gè)意識來得有點(diǎn)晚 —— 市場需求才是決定產(chǎn)品形態(tài)的最終導(dǎo)向果漾,而不是愿景。
現(xiàn)實(shí)是谷誓,chatbot若想獨(dú)立產(chǎn)品化绒障,面對的風(fēng)險(xiǎn)非常高。
雖然市場存在大量這樣的需求:無論是實(shí)體機(jī)器人生產(chǎn)商還是創(chuàng)建了虛擬角色的公司捍歪,都想嘗試賦予機(jī)器人一枚真正的“靈魂”户辱。實(shí)際上讓機(jī)器顯得富有“生命力”可以不單靠言語交流來體現(xiàn)鸵钝,還有故意摔倒、跟著音樂揮舞手臂焕妙、搖頭晃腦等等蒋伦,但讓機(jī)器人開口說話依然是最強(qiáng)烈的訴求(商家們多么想迎合大眾對于科幻的期待)。
產(chǎn)品化的思路
chatbot作為一種人機(jī)交互方式焚鹊,圍繞著其他品類的產(chǎn)品運(yùn)作了起來痕届。收集對話數(shù)據(jù)、挖掘用戶需求末患,逐漸形成支撐產(chǎn)品體驗(yàn)的各種要素 —— 甚至一個(gè)好的IP形象研叫,都會讓用戶多花幾倍時(shí)間在與虛擬機(jī)器人閑聊上。
微軟小冰很早就這么做了:通過塑造蠻不講理的少女形象璧针,以及宣傳中的情感慰藉能力嚷炉,籠絡(luò)了大批閑聊用戶。
但是問題來了探橱,小冰是有套路的申屹,用戶很快會熟悉她的對話套路,然后離開隧膏。
為了留住用戶哗讥,同時(shí)(還是)為了收集數(shù)據(jù),小冰從14年起就開始保持每周迭代兩個(gè)功能的頻率胞枕,支撐至今杆煞。在支持中小開發(fā)者、微信運(yùn)營者的層面腐泻,小冰的服務(wù)也盡量地貼心:可以分析微信公眾號的文章决乎,做到“智能推薦”(盡管顯得還不是非常智能)、識別朋友圈截圖從而輔助官方賬號運(yùn)營等等...
圍繞chatbot核心派桩,小冰團(tuán)隊(duì)利用一些現(xiàn)有的构诚、成熟的AI能力,來體現(xiàn)少女小冰的“智能”铆惑,看起來似乎卓有成效唤反,但是小冰也沒擺脫那個(gè)缺陷:“套路”不是人為加上去的,而是天然存在的 —— 數(shù)據(jù)庫永遠(yuǎn)覆蓋不到人類的全部對話鸭津,在40%的最常見的聊天內(nèi)容背后彤侍,是無窮無盡的長尾問題...
在認(rèn)清這個(gè)基本現(xiàn)狀后,小冰團(tuán)隊(duì)也不再強(qiáng)調(diào)“IQ”的重要性逆趋,轉(zhuǎn)而頻繁提及“EQ”了盏阶。說是揚(yáng)長避短,倒更像是應(yīng)對技術(shù)天花板的營銷手段闻书。
GOOGLE的做法則是做一款社交軟件名斟,把chatbot“嵌入”進(jìn)去脑慧。用戶在與人交流的間隙,ELLO就會打岔進(jìn)來砰盐,或者依據(jù)用戶發(fā)給對方的照片推薦相關(guān)回復(fù)闷袒,如評論一朵花、一個(gè)旅游目的地等岩梳。再解決一些叫外賣囊骤、查天氣的基本服務(wù),一個(gè)具備完整閉環(huán)的AI對話產(chǎn)品也就這樣被塑造出來了冀值。
新意總是層出不窮的也物,但像alphago那樣叫座容易,像“正經(jīng)”產(chǎn)品那樣獲利就難了列疗。
結(jié)語
一個(gè)會開口講話滑蚯、看似能理解你意思的機(jī)器人也遠(yuǎn)沒有想象中那么神秘。問題就在于規(guī)劃宏偉藍(lán)圖和迎合市場打造“爆品”之間抵栈,似乎總存在一些難以調(diào)和告材。創(chuàng)業(yè)公司如何應(yīng)對,全看其背后的價(jià)值觀了古劲。
至少斥赋,對于人機(jī)對話領(lǐng)域的產(chǎn)品經(jīng)理而言,也許跟一群像模像樣的geek共事才是最大的收獲:)