語言模型
一段自然語言文本可以看作是一個離散時間序列棱诱,給定一個長度為T的詞的序列w1,w2,…,wT稚字,語言模型的目標就是評估該序列是否合理饲宿,即計算該序列的概率:
P(w1,w2,…,wT).
本節(jié)我們介紹基于統(tǒng)計的語言模型厦酬,主要是n元語法(n-gram)。
具體內(nèi)容(附代碼)鏈接:https://www.kesci.com/org/boyuai/workspace/project
代碼講解視頻鏈接:伯禹學(xué)習平臺
選擇題
1.
下列關(guān)于n元語法模型的描述中錯誤的是:
答案:C
2.
包含4個詞的文本序列的概率為P(w1,w2,w3,w4)=P(w1)P(w2|w1)P(w3|w1,w2)P(w4|w1,w2,w3)P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?∣w1?)P(w3?∣w1?,w2?)P(w4?∣w1?,w2?,w3?)瘫想,當n=3時仗阅,基于n?1階馬爾科夫鏈,該概率表達可以改寫為:
A. P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?)P(w3?)P(w4?)
B. P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?∣w1?)P(w3?∣w2?)P(w4?∣w3?)
C.?P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?∣w1?)P(w3?∣w1?,w2?)P(w4?∣w2?,w3?)
D.?P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?∣w1?)P(w3?∣w1?,w2?)P(w4?∣w1?,w2?,w3?)
答案:C
由2階馬爾科夫鏈国夜,從第三個詞開始每個詞只與其前兩個詞有關(guān)减噪。
3.
下列關(guān)于隨機采樣的描述中錯誤的是:
A.訓(xùn)練數(shù)據(jù)中的每個字符最多可以出現(xiàn)在一個樣本中
B.每個小批量包含的樣本數(shù)是batch_size,每個樣本的長度為num_steps
C.在一個樣本中支竹,前后字符是連續(xù)的
D.前一個小批量數(shù)據(jù)和后一個小批量數(shù)據(jù)是連續(xù)的
答案:D
隨機采樣中前后批量中的數(shù)據(jù)是不連續(xù)的旋廷。
4.
給定訓(xùn)練數(shù)據(jù)[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]鸠按,批量大小為batch_size=2礼搁,時間步數(shù)為2,使用本節(jié)課的實現(xiàn)方法進行相鄰采樣目尖,第二個批量為:
A. [5, 6]和[7, 8]
B.?[2, 3]和[7, 8]
C.?[4, 5]和[6, 7]
D.?[2, 3]和[6, 7]
答案:B
因為訓(xùn)練數(shù)據(jù)中總共有11個樣本馒吴,而批量大小為2,所以數(shù)據(jù)集會被拆分成2段瑟曲,每段包含5個樣本:[0, 1, 2, 3, 4]和[5, 6, 7, 8, 9]饮戳,而時間步數(shù)為2,所以第二個批量為[2, 3]和[7, 8]洞拨。