《動手學(xué)》:語言模型_課后作業(yè)

語言模型

一段自然語言文本可以看作是一個離散時間序列棱诱,給定一個長度為T的詞的序列w1,w2,…,wT稚字,語言模型的目標就是評估該序列是否合理饲宿,即計算該序列的概率:

P(w1,w2,…,wT).

本節(jié)我們介紹基于統(tǒng)計的語言模型厦酬,主要是n元語法(n-gram)。

具體內(nèi)容(附代碼)鏈接:https://www.kesci.com/org/boyuai/workspace/project

代碼講解視頻鏈接:伯禹學(xué)習平臺


選擇題

1.

下列關(guān)于n元語法模型的描述中錯誤的是:


答案:C

2.

包含4個詞的文本序列的概率為P(w1,w2,w3,w4)=P(w1)P(w2|w1)P(w3|w1,w2)P(w4|w1,w2,w3)P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?∣w1?)P(w3?∣w1?,w2?)P(w4?∣w1?,w2?,w3?)瘫想,當n=3時仗阅,基于n?1階馬爾科夫鏈,該概率表達可以改寫為:

A. P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?)P(w3?)P(w4?)

B. P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?∣w1?)P(w3?∣w2?)P(w4?∣w3?)

C.?P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?∣w1?)P(w3?∣w1?,w2?)P(w4?∣w2?,w3?)

D.?P(w1?,w2?,w3?,w4?)=P(w1?)P(w2?∣w1?)P(w3?∣w1?,w2?)P(w4?∣w1?,w2?,w3?)

答案:C

由2階馬爾科夫鏈国夜,從第三個詞開始每個詞只與其前兩個詞有關(guān)减噪。

3.

下列關(guān)于隨機采樣的描述中錯誤的是:

A.訓(xùn)練數(shù)據(jù)中的每個字符最多可以出現(xiàn)在一個樣本中

B.每個小批量包含的樣本數(shù)是batch_size,每個樣本的長度為num_steps

C.在一個樣本中支竹,前后字符是連續(xù)的

D.前一個小批量數(shù)據(jù)和后一個小批量數(shù)據(jù)是連續(xù)的

答案:D

隨機采樣中前后批量中的數(shù)據(jù)是不連續(xù)的旋廷。

4.

給定訓(xùn)練數(shù)據(jù)[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]鸠按,批量大小為batch_size=2礼搁,時間步數(shù)為2,使用本節(jié)課的實現(xiàn)方法進行相鄰采樣目尖,第二個批量為:

A. [5, 6]和[7, 8]

B.?[2, 3]和[7, 8]

C.?[4, 5]和[6, 7]

D.?[2, 3]和[6, 7]

答案:B

因為訓(xùn)練數(shù)據(jù)中總共有11個樣本馒吴,而批量大小為2,所以數(shù)據(jù)集會被拆分成2段瑟曲,每段包含5個樣本:[0, 1, 2, 3, 4]和[5, 6, 7, 8, 9]饮戳,而時間步數(shù)為2,所以第二個批量為[2, 3]和[7, 8]洞拨。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末扯罐,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子烦衣,更是在濱河造成了極大的恐慌歹河,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件花吟,死亡現(xiàn)場離奇詭異秸歧,居然都是意外死亡,警方通過查閱死者的電腦和手機衅澈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進店門键菱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人今布,你說我怎么就攤上這事经备。” “怎么了部默?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵侵蒙,是天一觀的道長。 經(jīng)常有香客問我甩牺,道長蘑志,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮急但,結(jié)果婚禮上澎媒,老公的妹妹穿的比我還像新娘。我一直安慰自己波桩,他們只是感情好戒努,可當我...
    茶點故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著镐躲,像睡著了一般储玫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上萤皂,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天撒穷,我揣著相機與錄音,去河邊找鬼裆熙。 笑死端礼,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的入录。 我是一名探鬼主播蛤奥,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼僚稿!你這毒婦竟也來了凡桥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤蚀同,失蹤者是張志新(化名)和其女友劉穎缅刽,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體唤崭,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡拷恨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了谢肾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腕侄。...
    茶點故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖芦疏,靈堂內(nèi)的尸體忽然破棺而出冕杠,到底是詐尸還是另有隱情,我是刑警寧澤酸茴,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布分预,位于F島的核電站,受9級特大地震影響薪捍,放射性物質(zhì)發(fā)生泄漏笼痹。R本人自食惡果不足惜配喳,卻給世界環(huán)境...
    茶點故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望凳干。 院中可真熱鬧晴裹,春花似錦、人聲如沸救赐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽经磅。三九已至泌绣,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間预厌,已是汗流浹背阿迈。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留配乓,地道東北人仿滔。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像犹芹,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鞠绰,可洞房花燭夜當晚...
    茶點故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 語言模型 一段自然語言文本可以看作是一個離散時間序列腰埂,給定一個長度為TT的詞的序列w1,w2,…,wTw1,w2,...
    丁怡澤sns閱讀 188評論 0 0
  • 文本預(yù)處理文本是一類序列數(shù)據(jù),一篇文章可以看作是字符或單詞的序列蜈膨,本節(jié)將介紹文本數(shù)據(jù)的常見預(yù)處理步驟屿笼,預(yù)處理通常包...
    周文韜閱讀 231評論 0 0
  • Language Model 語言模型用來判斷:是否一句話從語法上通順 LM—Obgective(目標=) : C...
    在努力的Jie閱讀 2,522評論 0 2
  • 之前只簡單的使用過pytorch,這次利用這個機會系統(tǒng)的學(xué)習下pytorch翁巍。 線性回歸 數(shù)據(jù)集 這里我們要生成線...
    weiguangs閱讀 254評論 0 0
  • 以下內(nèi)容學(xué)習驴一、摘錄自《數(shù)學(xué)之美》 統(tǒng)計語言模型( Statistical Language Model),是今天所...
    whybask閱讀 3,271評論 0 4