前言:
Ubuntu Dialogue Corpus:a dataset containing almost 1 million multi-turn dialogues, with a total of over 7 million utterances and 100 million words。
Dialog State Tracking Challenge : 跟蹤用戶行為的任務(wù)缴守。
benchmark:基準(zhǔn)
介紹:
unstructured dialogues : there is no a priori logical representation for the information exchanged during the conversation.(對(duì)話是沒有結(jié)構(gòu)的,和slot類型方法區(qū)分開來(lái)鳄抒。)
神經(jīng)網(wǎng)絡(luò)在那些領(lǐng)域獲得了好的結(jié)果的知允。因?yàn)椋?br>
1)公共分布的數(shù)據(jù)很豐富
2)足夠的計(jì)算能力
3)有不同的變種神經(jīng)網(wǎng)絡(luò)撒蟀。
而Dialogue systems 并沒有那么好。假設(shè)可能是因?yàn)槿鄙僮銐虻臄?shù)據(jù)集温鸽。
這個(gè)數(shù)據(jù)集是從Ubuntu chat logs上面提取下來(lái)的保屯。所以才叫做Ubuntu Dialogue Corpus。
這個(gè)數(shù)據(jù)集平均8輪涤垫。最小3輪姑尺。
本文介紹了TF-IDF(frequency-inverse document frequency)、neural models(RNN)和(LSTM)蝠猬。
相比其他的Datasets切蟋。
Switchboard dataset、Dialogue State Tracking Challenge datasets榆芦。往往是將問(wèn)題視為slot filling task柄粹。(structural)where agents attempt to predict the goal of a user during the conversation.
(盡管他們對(duì)于訓(xùn)練神經(jīng)網(wǎng)絡(luò)而言,數(shù)據(jù)量很小匆绣,但是對(duì)于結(jié)構(gòu)化的對(duì)話工作還是很有用的)驻右。(應(yīng)該是這些數(shù)據(jù)集往往是很有結(jié)構(gòu)的問(wèn)答。)
學(xué)習(xí)結(jié)構(gòu)的發(fā)展崎淳。
數(shù)據(jù)集是如何產(chǎn)生的以及有什么特點(diǎn)堪夭。
三種學(xué)習(xí)方法:
TF-IDF : Term frequency 和 inverse document frequency。
計(jì)算一個(gè)word對(duì)于一個(gè)document的重要性拣凹。(在這個(gè)例子里面森爽,document就是上下文)。
這個(gè)經(jīng)常被用來(lái)文檔分類以及信息檢索嚣镜。
term-frequency 就是word在該document里面出現(xiàn)的次數(shù)爬迟。
inverse document frequency 就是一個(gè)懲罰用來(lái)估量這個(gè)單詞是否在很多的文檔上都出現(xiàn)。
其中就是值 word在上下文 d 中出現(xiàn)的次數(shù)祈惶。
N是所有的dialogues的數(shù)目雕旨。
懲罰就是w出現(xiàn)在了多少個(gè)dialogues中。
分母越大捧请,log越小凡涩,最后值越小。
RNN:NN的變種疹蛉,加入了上下文的機(jī)制活箕。
引入了時(shí)間的概念。前一個(gè)時(shí)間(上一個(gè)詞語(yǔ)或者是句子)對(duì)當(dāng)前時(shí)間的輸入數(shù)據(jù)也會(huì)有影響可款。
LSTM:改變hidden units to long-short term memory units育韩。