QA問(wèn)句解析的七種方法及優(yōu)化思路

《淺談智能搜索和對(duì)話式OS》中,提到過(guò)人乓,人機(jī)對(duì)話系統(tǒng)的常見(jiàn)場(chǎng)景有三種勤篮,分別為:閑聊型(Chatbot)問(wèn)答型(QA)色罚、任務(wù)型(VPA)碰缔。本篇文章所關(guān)注的解析方式主要適用于QA系統(tǒng)中的封閉域問(wèn)答,也即:將用戶問(wèn)句解析為庫(kù)中存在的標(biāo)準(zhǔn)問(wèn)句戳护。

這里講的七種方法均為我個(gè)人閱讀文獻(xiàn)后歸納整理而來(lái)手负,并不都是成熟穩(wěn)定可以商業(yè)化的做法涤垫,目的只是提出思路以作參考。

0.基于規(guī)則的方法

基于規(guī)則的方法通常在缺乏訓(xùn)練數(shù)據(jù)的情況下采用竟终,由于與后面的基于統(tǒng)計(jì)的方法區(qū)別較大蝠猬,所以記為第零種方法。

基于規(guī)則的解析系統(tǒng)通常由兩部分構(gòu)成:一個(gè)是『規(guī)則庫(kù)』统捶,解析規(guī)則通常為 CFG 上下文無(wú)關(guān)文法榆芦;另一個(gè)是『同義詞庫(kù)』,記錄了一些標(biāo)準(zhǔn)詞的常見(jiàn)同義詞喘鸟。

整個(gè)解析就是一個(gè)上下文無(wú)關(guān)文法歸約的過(guò)程匆绣。首先進(jìn)行自動(dòng)分詞,接著將用戶問(wèn)句中的詞依照『同義詞庫(kù)』歸約為標(biāo)準(zhǔn)詞什黑,然后再將詞歸約后的問(wèn)句與『規(guī)則庫(kù)』中的解析規(guī)則比對(duì)崎淳,一旦比對(duì)成功,即該條用戶問(wèn)句被成功歸約到該條解析規(guī)則所對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句上愕把。

舉個(gè)例子拣凹,同義詞庫(kù)中有這樣兩條記錄:『失敗:不上去恨豁、不進(jìn)去嚣镜、不成功、錯(cuò)誤』『登錄:登陸橘蜜、登錄』菊匿,規(guī)則庫(kù)中有這樣一條規(guī)則:『賬號(hào)登錄失敗:[賬號(hào)][登錄](méi)[失敗]』计福。

有一條用戶問(wèn)句是這樣的『我賬號(hào)怎么登陸不上去了』跌捆。首先假定分詞正確,分詞結(jié)果為『我|賬號(hào)|怎么|登陸|不上去|了』象颖;之后進(jìn)行詞歸約疹蛉,歸約結(jié)果為『我賬號(hào)怎么登錄失敗了』;接著與規(guī)則『賬號(hào)登錄失斄︳铩:[賬號(hào)][登錄](méi)[失敗]』比對(duì)可款,發(fā)現(xiàn)比對(duì)成功。該條用戶問(wèn)句被成功歸約為標(biāo)準(zhǔn)問(wèn)句『賬號(hào)登錄失敗』克蚂,我們將系統(tǒng)中『賬號(hào)登錄失敗』所對(duì)應(yīng)的標(biāo)準(zhǔn)答案提供給用戶闺鲸,完成交互流程。

這樣做在一定程度上能夠解決問(wèn)題埃叭,但缺點(diǎn)也特別嚴(yán)重摸恍。首先『規(guī)則庫(kù)』與『同義詞庫(kù)』需要人工構(gòu)建,這需要巨大且長(zhǎng)期的人力資源投入。因?yàn)檎Z(yǔ)言的表達(dá)方式理論上是無(wú)限的立镶,而能想到的規(guī)則和同義詞總是有限的壁袄;且隨著語(yǔ)言的發(fā)展,或是業(yè)務(wù)的變動(dòng)媚媒,整個(gè)規(guī)則庫(kù)和同義詞庫(kù)的維護(hù)也需要持續(xù)的人力資源投入嗜逻。

其次,編寫(xiě)規(guī)則庫(kù)需要豐富的經(jīng)驗(yàn)缭召,對(duì)于人員素質(zhì)的要求極高栈顷。因?yàn)榻馕鲆?guī)則的抽象程度相當(dāng)高,在這樣高的抽象程度上嵌巷,即便編寫(xiě)者具有較豐富的經(jīng)驗(yàn)(如果沒(méi)經(jīng)驗(yàn)會(huì)更糟)萄凤,不同解析規(guī)則之間的沖突也是不可避免的,也即同一條用戶問(wèn)句會(huì)與多條標(biāo)準(zhǔn)問(wèn)句的解析規(guī)則比對(duì)成功搪哪,這種情況下的標(biāo)準(zhǔn)問(wèn)句選擇/評(píng)分問(wèn)題靡努,又需要另一套系統(tǒng)來(lái)解決。

1.基于檢索模型的方法

換個(gè)角度晓折,我們可以將依照用戶問(wèn)句找到標(biāo)準(zhǔn)問(wèn)句的過(guò)程看做是輸入 Query 得到 Document 的搜索過(guò)程惑朦。

我們可以嘗試采用傳統(tǒng)搜索引擎中使用的檢索模型來(lái)進(jìn)行用戶問(wèn)句解析。《淺談搜索引擎基礎(chǔ)(上)》中提到已维,BM25 是目前效果最好的檢索模型,我們就以 BM25 模型為例來(lái)分析已日。

BM25 模型的計(jì)算公式如下:


BM25 模型計(jì)算公式融合了 4 個(gè)考慮因素:IDF 因子垛耳、文檔詞頻文檔長(zhǎng)度因子查詢?cè)~頻飘千,并利用 3 個(gè)自由調(diào)節(jié)因子(k1堂鲜、k2 和 b)對(duì)各種因子的權(quán)值進(jìn)行調(diào)整組合。

其中护奈,N 代表文檔總數(shù)缔莲,n 代表出現(xiàn)對(duì)應(yīng)單詞的文檔個(gè)數(shù),f 指文檔中出現(xiàn)對(duì)應(yīng)單詞的詞頻霉旗,qf 是查詢語(yǔ)句中對(duì)應(yīng)單詞的詞頻痴奏,dl 是文檔長(zhǎng)度。

利用 BM25 模型可以有三種思路厌秒,分別把標(biāo)準(zhǔn)問(wèn)句读拆、標(biāo)準(zhǔn)問(wèn)句及標(biāo)準(zhǔn)答案、歷史中曾經(jīng)正確匹配過(guò)該標(biāo)準(zhǔn)問(wèn)句的用戶問(wèn)句集作為 Document鸵闪,利用公式計(jì)算其與用戶問(wèn)句的相似度檐晕,然后利用相似度進(jìn)行排序,取出評(píng)分最高的標(biāo)準(zhǔn)問(wèn)句作為解析結(jié)果。

對(duì)于這個(gè)思路我沒(méi)有做過(guò)實(shí)驗(yàn),不過(guò)我推測(cè),這種方法雖然節(jié)省了大量的人力咙崎,但在這種封閉域的 QA 系統(tǒng)中测砂,其表現(xiàn)應(yīng)當(dāng)是不如上一種基于規(guī)則的方法,基于檢索模型的方法在開(kāi)放域中的表現(xiàn)會(huì)更好举塔。

此外,基于傳統(tǒng)檢索模型的方法會(huì)存在一個(gè)固有缺陷,就是檢索模型只能處理 Query 與 Document 有重合詞的情況苛让,傳統(tǒng)檢索模型無(wú)法處理詞語(yǔ)的語(yǔ)義相關(guān)性。在上一種方法中湿诊,通過(guò)人工搭建的同義詞庫(kù)狱杰,一定程度上解決了語(yǔ)義相關(guān)性的問(wèn)題。

2.基于檢索模型+LDA/SMT的方法

上文提到厅须,完全基于檢索模型的方法無(wú)法處理詞語(yǔ)的語(yǔ)義相關(guān)性仿畸。

為了在一定程度上解決這個(gè)問(wèn)題,我們可以利用 LDA/SMT 等方法通過(guò)語(yǔ)料挖掘詞之間的同義關(guān)系朗和,為每個(gè)詞自動(dòng)構(gòu)建一個(gè)同義度高于閾值且大小合適的同義詞表错沽。在代入檢索模型公式進(jìn)行計(jì)算的過(guò)程中,若文檔中發(fā)現(xiàn)所查找關(guān)鍵詞的同義詞眶拉,可以依據(jù)同義程度乘以一定權(quán)重后納入到關(guān)鍵詞的詞頻計(jì)算之中千埃。

《淺談智能搜索和對(duì)話式OS》中有對(duì) LDA/SMT 的介紹。

簡(jiǎn)單的說(shuō)忆植,LDA 可以合理的將單詞歸類到不同的隱含主題之中放可;并且通過(guò)計(jì)算兩篇文章主題向量 θ 的 KL 散度(相對(duì)熵),可以得到兩篇文章的相似性朝刊。SMT 模型出自微軟之手耀里,目的即是將翻譯模型引入傳統(tǒng)檢索模型,提高檢索模型對(duì)語(yǔ)義相關(guān)詞對(duì)的處理能力拾氓,該模型也曾被百度采用過(guò)以提高搜索引擎返回結(jié)果的質(zhì)量冯挎。

3.基于word embedding+DNN的方法

word embedding 將詞表示為 Distributed Representation,也即低維向量空間中的一個(gè)詞向量咙鞍,Distributed Representation 下的詞可以利用余弦距離來(lái)計(jì)算詞之間語(yǔ)義的相關(guān)關(guān)系房官。與 one-hot Representation 相對(duì)應(yīng),one-hot Representation 下的詞向量的維數(shù)與單詞表的維數(shù)相同续滋,不同詞的詞向量之間均正交易阳。傳統(tǒng)的詞集模型(SOW)和詞袋模型(BOW)采用的即是 one-hot Representation。

我們可以采用深度學(xué)習(xí)的方法來(lái)得到詞 Distributed Representation 的詞向量吃粒。比如訓(xùn)練一個(gè)普通的神經(jīng)概率語(yǔ)言模型潦俺,就可以得到詞的詞向量,或者參考 word2vec 中的方式,訓(xùn)練 CBOW 或者 Skip-gram 模型事示。神經(jīng)概率語(yǔ)言模型早像、CBOW 以及 Skip-gram 的介紹在《淺談智能搜索和對(duì)話式OS》均有提及。

借助百度這張圖來(lái)講肖爵,利用 DNN 建模的思路如下:


我們需要使用一批用戶問(wèn)句-標(biāo)準(zhǔn)問(wèn)句對(duì)的正例和反例作為訓(xùn)練語(yǔ)料卢鹦,借助上面的方式,同時(shí)將正例和反例進(jìn)行 word embedding 后送入 DNN 中劝堪,并采用 Pairwise ranking loss 的方式來(lái)建模正例和反例之間的語(yǔ)義差別冀自。

4.基于word embedding+CNN的方法

上一種基于 DNN 的方法,在一定程度上已經(jīng)可以解決詞的語(yǔ)義相關(guān)性的問(wèn)題秒啦,但對(duì)句子中的短距離依賴關(guān)系并沒(méi)有做恰當(dāng)?shù)奶幚戆敬郑热鐭o(wú)法區(qū)分『甲到乙』和『乙到甲』。

根據(jù)百度的評(píng)測(cè)結(jié)果余境,CNN 在處理短距離依賴關(guān)系上擁有更好的表現(xiàn)驻呐。

該圖出自李航博士 Convolutional Neural Network Architectures for Matching Natural Language Sentences 中的 ARC-1:

ARC-1

其做法的基本思路是:將問(wèn)句中的每個(gè)詞,都做 word embedding芳来,得到每個(gè)詞所對(duì)應(yīng)的固定長(zhǎng)度的詞向量含末,我們將問(wèn)句表示成一個(gè)二維矩陣,每一行代表問(wèn)句中相應(yīng)詞所對(duì)應(yīng)的詞向量即舌。將這個(gè)二維矩陣進(jìn)行多次卷積池化(卷積核的寬度與詞向量維數(shù)相同佣盒,高度多為 2-5),最后得到一個(gè)一維特征向量顽聂,我們用 CNN 同時(shí)處理用戶問(wèn)句和標(biāo)準(zhǔn)問(wèn)句肥惭,得到用戶問(wèn)句和庫(kù)中標(biāo)準(zhǔn)問(wèn)句所對(duì)應(yīng)的特征向量。之后將這兩個(gè)向量拼接起來(lái)送入多層感知機(jī)芜飘,由它來(lái)計(jì)算兩個(gè)問(wèn)句之間的匹配程度务豺。

另外磨总,有人指出嗦明,直接將兩個(gè)特征向量拼接起來(lái)送入 MLP 會(huì)丟失邊界信息,所以我們同時(shí)將特征向量 a蚪燕、特征向量 b 和 aTb 同時(shí)送入 MLP 來(lái)計(jì)算相似度娶牌。

5.基于word embedding+CNN(ARC-2)的方法

ARC-2 結(jié)構(gòu)同樣出自李航博士的上述論文:


ARC-2

ARC-2 相較于 ARC-1 的改進(jìn)在于,ARC-2 嘗試讓兩個(gè)句子在得到像 ARC-1 結(jié)果那樣的高層抽象表示之前就進(jìn)行相互作用馆纳,不再先分別通過(guò) CNN 結(jié)構(gòu)得到各自高層抽象表示诗良。

在 ARC-1 模型中,一張 feature map 僅僅是一個(gè)列向量鲁驶,或者說(shuō)是一個(gè)一維矩陣鉴裹,若干個(gè)列向量并在一起形成了 ARC-1 示意圖中的模樣(二維),而在 ARC-2 中,一張 feature map 成為了一個(gè)二維矩陣径荔,若干個(gè)二維矩陣疊在一起形成了 ARC-2 示意圖中的模樣(三維)督禽。

再之后的卷積、池化過(guò)程就與 CV 中 CNN 的卷積总处、池化過(guò)程類似了狈惫。與上一種方法類似的,在進(jìn)行 1D convolution 時(shí)鹦马,涉及到兩個(gè)詞向量的連接胧谈,同樣可以采用之前提到的做法來(lái)避免邊界信息的丟失。

6.基于LSTM+CNN(ARC-2)的方法

同樣有人提出荸频,在 ARC-2 結(jié)構(gòu)中菱肖,直接采用傳統(tǒng)的 word embedding 方法得到的詞向量組成句子作為輸入并不是最佳方案,最佳方案是采用已經(jīng)過(guò)了 LSTM 的 hidden state试溯。

我們可以采用 LSTM 結(jié)構(gòu)訓(xùn)練一個(gè) RNN 語(yǔ)言模型蔑滓,如下圖(以普通 RNN 為例):


從圖中可以發(fā)現(xiàn),當(dāng)輸出為『e』時(shí)遇绞,hidden layer 向量中第三分量最大键袱,而輸出為『l』時(shí),第一分量最大摹闽,輸出『o』時(shí)蹄咖,第二分量最大。我們可以將 RNN 的 hidden state 當(dāng)做 Distributed Representation 的詞向量來(lái)使用付鹿,將其作為 CNN(ARC-2)的輸入澜汤,經(jīng)測(cè)試可以得到更好的結(jié)果。

番外

中文分詞

一個(gè)可信度高的分詞結(jié)果是進(jìn)行后續(xù)解析步驟的基本前提舵匾。

《淺談自然語(yǔ)言處理基礎(chǔ)(中)》中俊抵,我介紹了一些經(jīng)典的分詞方法,不過(guò)都是些較早的研究成果坐梯。CRF方法是目前公認(rèn)的效果最好的分詞算法徽诲。

CRF 方法的思想非常直接,就是將分詞問(wèn)題看作一個(gè)序列標(biāo)注問(wèn)題吵血,為句子中的每個(gè)字標(biāo)注詞位:

  • 詞首谎替,常用B表示
  • 詞中,常用M表示
  • 詞尾蹋辅,常用E表示
  • 單子詞钱贯,常用S表示

CRF 分詞的過(guò)程就是對(duì)詞位標(biāo)注后,將 B 和 E 之間的字侦另,以及 S 單字構(gòu)成分詞秩命。網(wǎng)上有很多公開(kāi)的基于 CRF 的分詞工具尉共。

解析優(yōu)化

至少存在四個(gè)角度可以在已有模型的基礎(chǔ)上進(jìn)一步提高解析質(zhì)量,包括:?jiǎn)柧錃w一化弃锐、用戶狀態(tài)爸邢、強(qiáng)化學(xué)習(xí)、多輪對(duì)話拿愧。

問(wèn)句歸一化

問(wèn)句歸一化的目的是對(duì)用戶的輸入具有較好的容錯(cuò)性杠河。

簡(jiǎn)單的一些比如:簡(jiǎn)繁體歸一化、全角半角歸一化浇辜、標(biāo)點(diǎn)符號(hào)處理和大小寫(xiě)歸一化券敌。復(fù)雜一些的比如漢語(yǔ)錯(cuò)別字的糾正。錯(cuò)別字自動(dòng)糾正技術(shù)的應(yīng)用非常廣泛柳洋,而且在提高系統(tǒng)用戶體驗(yàn)上能夠發(fā)揮很大的作用待诅,可以說(shuō)性價(jià)比極高。

錯(cuò)別字糾正通常的做法是訓(xùn)練噪聲信道模型熊镣。

用戶狀態(tài)

我們可以對(duì)用戶狀態(tài)提取特征卑雁,在訓(xùn)練和解析時(shí)將其作為附加信息一并作為神經(jīng)網(wǎng)絡(luò)的輸入。

可以被考慮的用戶狀態(tài)至少包含:

  • 用戶的過(guò)往使用記錄:比如賬號(hào)注冊(cè)時(shí)長(zhǎng)绪囱、歷史付費(fèi)金額
  • 用戶的過(guò)往問(wèn)答記錄:用戶過(guò)去詢問(wèn)過(guò)的問(wèn)題和這次的問(wèn)題可能會(huì)具有一定的相關(guān)性
  • 用戶的進(jìn)入路徑:可能隱含著用戶問(wèn)題的觸發(fā)源頁(yè)面
  • 用戶的當(dāng)前問(wèn)答記錄:同一個(gè) Session 中用戶詢問(wèn)的問(wèn)題通常具有一定的相關(guān)性

強(qiáng)化學(xué)習(xí)

其次可以采用強(qiáng)化學(xué)習(xí)的方法测蹲,通過(guò)設(shè)計(jì)合理的獎(jiǎng)賞機(jī)制,讓解析系統(tǒng)在與環(huán)境互動(dòng)的過(guò)程中自主進(jìn)行策略更新鬼吵。

強(qiáng)化學(xué)習(xí)與普通的監(jiān)督學(xué)習(xí)方法相比存在兩個(gè)明顯的優(yōu)點(diǎn):一個(gè)是強(qiáng)化學(xué)習(xí)策略更新所需要的數(shù)據(jù)主要來(lái)源于與環(huán)境的交互/采樣扣甲,而不是昂貴的人工標(biāo)記數(shù)據(jù);另一個(gè)是強(qiáng)化學(xué)習(xí)所產(chǎn)生的策略是根據(jù)獎(jiǎng)賞機(jī)制自主迭代更新的齿椅,會(huì)有一些創(chuàng)新的做法琉挖,而不僅僅是模仿人類提供的『標(biāo)準(zhǔn)』做法。

QA 問(wèn)句解析中雖然不像游戲一樣擁有『策略\創(chuàng)新玩法』這樣的概念涣脚,但仍然可以在解析優(yōu)化中幫助大量節(jié)省數(shù)據(jù)的人工標(biāo)記開(kāi)銷示辈。

應(yīng)用強(qiáng)化學(xué)習(xí)方法的核心問(wèn)題之一就是獎(jiǎng)賞機(jī)制的設(shè)計(jì),在 QA 的場(chǎng)景下設(shè)計(jì)獎(jiǎng)賞機(jī)制遣蚀,至少可以考慮以下幾個(gè)角度:

  • 退出 QA 頁(yè)面時(shí)可以要求用戶對(duì)本次 QA 做出反饋(已被螞蟻金服小螞答和京東智能客服采用)矾麻,負(fù)面反饋可以被進(jìn)一步區(qū)分為『解析錯(cuò)誤』和『答案錯(cuò)誤』,只有屬于『解析錯(cuò)誤』的負(fù)面反饋才被用于優(yōu)化解析系統(tǒng)
  • 系統(tǒng)是否連續(xù)多次提供給用戶相同的回答(以系統(tǒng)回答而不是用戶問(wèn)句為標(biāo)準(zhǔn))
  • 用戶是否最終選擇接入人工(如果人工接入不是自動(dòng)的)
  • 通過(guò)文本情感分析識(shí)別用戶的情緒變化

多輪對(duì)話

多輪對(duì)話技術(shù)可以進(jìn)一步提高與用戶對(duì)話的連貫性妙同。

我傾向于將多輪對(duì)話劃分為『封閉域』和『開(kāi)放域』兩個(gè)場(chǎng)景射富,不同場(chǎng)景的實(shí)現(xiàn)思路也應(yīng)該不同膝迎。

封閉域場(chǎng)景多輪對(duì)話的特點(diǎn)是:系統(tǒng)能解決的問(wèn)題是一個(gè)有限集粥帚,多輪對(duì)話的目的是將用戶引導(dǎo)到我們可以解決的問(wèn)題上。

而開(kāi)放域場(chǎng)景多輪對(duì)話的特點(diǎn)是:系統(tǒng)需要解決的問(wèn)題是一個(gè)無(wú)限集限次,多輪對(duì)話的目的是依照上下文更準(zhǔn)確的理解用戶的需求芒涡。

在這樣的指導(dǎo)思想下柴灯,封閉域多輪對(duì)話的核心思路應(yīng)該是『填槽』,而開(kāi)放域多輪對(duì)話的核心思路是『上下文替換』和『主體補(bǔ)全』费尽。

《淺談智能搜索和對(duì)話式OS》中介紹了百度利用 slot filling 技術(shù)來(lái)做 NLU赠群,并利用『上下文替換』和『主體補(bǔ)全』來(lái)提高其 DuerOS 的對(duì)話能力的。

而更進(jìn)一步的旱幼,填槽查描、上下文替換和主體補(bǔ)全的技術(shù)基礎(chǔ)都是『序列標(biāo)注』,這里給出百度的兩張 PPT:

填槽
上下文替換和主體補(bǔ)全

根據(jù)百度的 PPT柏卤,采用雙向 LSTM + CRF 做序列標(biāo)注冬三,是一個(gè)商業(yè)上可行的方法。

人工接入

選擇合適的人工接入時(shí)機(jī)同樣是提高 QA 系統(tǒng)整體表現(xiàn)的方法之一缘缚,其核心問(wèn)題在于平衡用戶體驗(yàn)與投入成本勾笆。人工接入的越早,用戶體驗(yàn)越好桥滨,但成本也越高窝爪。

這里簡(jiǎn)單提供螞蟻金服小螞答的做法:若系統(tǒng)連續(xù)提供給用戶三次相同的回答,顯示人工接入按鈕齐媒;若用戶連續(xù)詢問(wèn)兩次客服類問(wèn)題(比如『我要人工』蒲每、『你們客服電話多少』),顯示人工接入按鈕喻括。

答案優(yōu)化

QA 系統(tǒng)的另一個(gè)重要組成部分是答案庫(kù)啃勉。

答案錄入

答案錄入的優(yōu)化至少可以從三個(gè)角度來(lái)思考:

  • 答案形式的多樣性
  • 答案的個(gè)性化程度
  • 答案對(duì)用戶的幫助

答案形式的多樣性非常容易理解,比如小螞答就支持包括文本双妨、鏈接淮阐、圖片、視頻在內(nèi)的多種答案形式刁品。

個(gè)性化問(wèn)題在上文解析優(yōu)化中已有涉及(考慮用戶狀態(tài)的解析優(yōu)化)泣特,上文的分析思路同樣可以應(yīng)用于答案錄入,我們可以對(duì)不同注冊(cè)時(shí)長(zhǎng)挑随、付費(fèi)金額不同状您、進(jìn)入路徑不同等等的用戶提供不同的個(gè)性化答案。

答案對(duì)用戶的幫助看起來(lái)比較抽象兜挨,但也很容易理解膏孟。通俗的,我個(gè)人以『地圖級(jí)』拌汇、『導(dǎo)航級(jí)』柒桑、『專車級(jí)』來(lái)為 QA 系統(tǒng)的答案進(jìn)行分級(jí):

  • 『地圖級(jí)』答案告訴你在什么什么地方可以做什么什么事情,你自己去找噪舀,找到了再做魁淳。
  • 『導(dǎo)航級(jí)』答案幫你跳轉(zhuǎn)到完成任務(wù)所需的頁(yè)面飘诗,不必找,直接做界逛。
  • 『專車級(jí)』答案直接為你解決問(wèn)題昆稿,不必找,不必親自做息拜。

依照文章最初的人機(jī)對(duì)話系統(tǒng)場(chǎng)景分類溉潭,提供『專車級(jí)』答案的 QA 系統(tǒng),可以被稱為 VPA 了少欺。

答案更新

對(duì)于答案庫(kù)的優(yōu)化岛抄,在答案完備錄入(答案形式足夠豐富、針對(duì)不同用戶提供個(gè)性化的回答)的前提下狈茉,至少存在兩個(gè)優(yōu)化點(diǎn):

  • 發(fā)現(xiàn)答案庫(kù)中標(biāo)準(zhǔn)答案的錯(cuò)誤
  • 發(fā)現(xiàn)答案庫(kù)中缺失的標(biāo)準(zhǔn)答案

上文解析優(yōu)化中強(qiáng)化學(xué)習(xí)方法獎(jiǎng)賞機(jī)制的設(shè)計(jì)思路也可以被用來(lái)發(fā)現(xiàn)答案庫(kù)中存在的問(wèn)題夫椭,因?yàn)榇蠖鄶?shù)時(shí)候我們還很難明確的區(qū)分用戶的負(fù)面反饋是針對(duì)解析系統(tǒng)還是答案本身。

除了從用戶負(fù)面反饋中發(fā)現(xiàn)問(wèn)題氯庆,針對(duì)上面的兩個(gè)優(yōu)化點(diǎn)蹭秋,我們還應(yīng)該有一些預(yù)防機(jī)制來(lái)提前避免這些問(wèn)題的發(fā)生。

比如第一點(diǎn)『答案庫(kù)中標(biāo)準(zhǔn)答案存在錯(cuò)誤』堤撵,如果不是錄入人員的素質(zhì)問(wèn)題仁讨,最大的可能性就來(lái)源于答案的時(shí)效性,也即我們提供給了用戶過(guò)期的答案实昨。針對(duì)這個(gè)問(wèn)題洞豁,我們可以在錄入答案時(shí)特別添加『臨時(shí)』標(biāo)簽,以標(biāo)明該答案具有較強(qiáng)的時(shí)效性荒给,需要及時(shí)更新丈挟。

而針對(duì)第二點(diǎn)『答案庫(kù)中缺失某些問(wèn)題的答案』,最大的可能性來(lái)源于突發(fā)事件以及業(yè)務(wù)的變動(dòng)志电。比如系統(tǒng)服務(wù)宕機(jī)曙咽、系統(tǒng)上了新版本或者組織了一些運(yùn)營(yíng)活動(dòng),我們都應(yīng)該針對(duì)這些可能引發(fā)用戶疑惑的變動(dòng)挑辆,提前準(zhǔn)備一些 FAQ 并錄入到答案庫(kù)之中例朱。

此外,當(dāng)我們錄入新問(wèn)題及其標(biāo)準(zhǔn)答案的時(shí)候鱼蝉,需要注意新錄入問(wèn)題與原解析系統(tǒng)的適配性洒嗤,以避免出現(xiàn)新錄入的問(wèn)題較難被解析系統(tǒng)解析到的情況】啵可采用的方法比如在錄入新問(wèn)題的同時(shí)渔隶,主動(dòng)錄入一些不同的問(wèn)法作為初始訓(xùn)練語(yǔ)料(網(wǎng)易七魚(yú)云客服的做法)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末吉挣,一起剝皮案震驚了整個(gè)濱河市派撕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌睬魂,老刑警劉巖终吼,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異氯哮,居然都是意外死亡际跪,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)喉钢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)姆打,“玉大人,你說(shuō)我怎么就攤上這事肠虽♂O罚” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵税课,是天一觀的道長(zhǎng)闲延。 經(jīng)常有香客問(wèn)我,道長(zhǎng)韩玩,這世上最難降的妖魔是什么垒玲? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮找颓,結(jié)果婚禮上合愈,老公的妹妹穿的比我還像新娘。我一直安慰自己击狮,他們只是感情好佛析,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著彪蓬,像睡著了一般说莫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上寞焙,一...
    開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1 285
  • 那天储狭,我揣著相機(jī)與錄音,去河邊找鬼捣郊。 笑死辽狈,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的呛牲。 我是一名探鬼主播刮萌,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼娘扩!你這毒婦竟也來(lái)了着茸?” 一聲冷哼從身側(cè)響起壮锻,我...
    開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎涮阔,沒(méi)想到半個(gè)月后猜绣,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡敬特,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年掰邢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伟阔。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辣之,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出皱炉,到底是詐尸還是另有隱情怀估,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布合搅,位于F島的核電站奏夫,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏历筝。R本人自食惡果不足惜酗昼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望梳猪。 院中可真熱鬧麻削,春花似錦、人聲如沸春弥。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)匿沛。三九已至扫责,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間逃呼,已是汗流浹背鳖孤。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留抡笼,地道東北人苏揣。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像推姻,于是被迫代替她去往敵國(guó)和親平匈。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容