第二次打卡-2020-02-14

學習筆記

一又厉、文本預處理

文本是一類序列數(shù)據(jù)饱亿,一篇文章可以看作是字符或單詞的序列瘟判,對文本處理主要包含以下步驟:

  1. 讀入文本
  2. 分詞
  3. 建立字典抡句,將每個詞映射到一個唯一的索引(index)
  4. 將文本從詞的序列轉(zhuǎn)換為索引的序列,方便輸入模型

對于語言的不同赋秀,在分詞上處理方式不太一樣利朵,英文單詞的意義相對獨立,分詞較為方便猎莲,可以采用spaCyNLTK包來進行操作绍弟。
中文分詞相對難度較大,主要集中在:分詞標準著洼、歧義樟遣、新詞方面。參見中文分詞郭脂。

二年碘、語言模型

一段分詞后的自然語言文本可以看作是一個離散時間序列,通過假設詞之間存在n階馬爾可夫鏈關(guān)系展鸡,可以簡化語言模型計算,即:
P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T P(w_t \mid w_{t-(n-1)}, \ldots, w_{t-1}) .
不過這會帶來參數(shù)空間過大以及數(shù)據(jù)稀疏的問題。即文本內(nèi)存在高頻無意義詞埃难,具體解決方式有待研究莹弊。

采樣

在訓練中我們需要每次隨機讀取小批量樣本和標簽,這就涉及到采樣方式的選任谐尽:隨機采樣和相鄰采樣忍弛,具體如下:


采樣

三、RNN-循環(huán)神經(jīng)網(wǎng)絡

RNN示意圖

具體構(gòu)造:

其中考抄,细疚,,川梅,函數(shù)是非線性激活函數(shù)疯兼。由于引入了然遏,能夠捕捉截至當前時間步的序列的歷史信息,就像是神經(jīng)網(wǎng)絡當前時間步的狀態(tài)或記憶一樣吧彪。由于的計算基于待侵,上式的計算是循環(huán)的,使用循環(huán)計算的網(wǎng)絡即循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network)姨裸。
在時間步秧倾,輸出層的輸出為:

\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hq} + \boldsymbol_q.
其中\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}傀缩,\boldsymbol那先_q \in \mathbb{R}^{1 \times q}
模型參數(shù)
{W}_{xh} : 狀態(tài)-輸入權(quán)重
{W}_{hh}: 狀態(tài)-狀態(tài)權(quán)重
{W}_{hq}: 狀態(tài)-輸出權(quán)重
赡艰_h: 隱藏層的偏置
售淡_q: 輸出層的偏置
循環(huán)神經(jīng)網(wǎng)絡的參數(shù)就是上述的三個權(quán)重和兩個偏置,并且在沿著時間訓練(參數(shù)的更新)瞄摊,參數(shù)的數(shù)量沒有發(fā)生變化勋又,僅僅是上述的參數(shù)的值在更新。循環(huán)神經(jīng)網(wǎng)絡可以看作是沿著時間維度上的權(quán)值共享
在卷積神經(jīng)網(wǎng)絡中换帜,一個卷積核通過在特征圖上滑動進行卷積楔壤,是空間維度的權(quán)值共享。在卷積神經(jīng)網(wǎng)絡中通過控制特征圖的數(shù)量來控制每一層模型的復雜度惯驼,而循環(huán)神經(jīng)網(wǎng)絡是通過控制{W}_{xh}{W}_{hh}中h的維度來控制模型的復雜度蹲嚣。

一個batch的數(shù)據(jù)的表示

如何將一個batch的數(shù)據(jù)轉(zhuǎn)換成時間步數(shù)個(批量大小,詞典大兴钌)的矩陣隙畜?
每個字符都是一個詞典大小的向量,每個樣本是時間步數(shù)個序列说贝,每個batch是批量大小個樣本
第一個(批量大小议惰,詞典大小)的矩陣:取出一個批量樣本中每個序列的第一個字符,并將每個字符展開成詞典大小的向量乡恕,就形成了第一個時間步所表示的矩陣
第二個(批量大小言询,詞典大小)的矩陣:取出一個批量樣本中每個序列的第二個字符函卒,并將每個字符展開成詞典大小的向量,就形成了第二個時間步所表示的矩陣
最后就形成了時間步個(批量大小熊榛,詞典大小)的矩陣营搅,這也就是每個batch最后的形式

隱藏狀態(tài)的初始化

隨機采樣時:每次迭代都需要重新初始化隱藏狀態(tài)(每個epoch有很多詞迭代帖世,每次迭代都需要進行初始化,因為對于隨機采樣的樣本中只有一個批量內(nèi)的數(shù)據(jù)是連續(xù)的)
相鄰采樣時:如果是相鄰采樣,則說明前后兩個batch的數(shù)據(jù)是連續(xù)的,所以在訓練每個batch的時候只需要更新一次(也就是說模型在一個epoch中的迭代不需要重新初始化隱藏狀態(tài))

detach

關(guān)于這方面,參見https://www.cnblogs.com/jiangkejie/p/9981707.html
https://zhuanlan.zhihu.com/p/79801410

待續(xù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末堪遂,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子彭则,更是在濱河造成了極大的恐慌芬萍,老刑警劉巖负芋,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異陪拘,居然都是意外死亡迄靠,警方通過查閱死者的電腦和手機特占,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人身弊,你說我怎么就攤上這事翩蘸。” “怎么了伏嗜?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵八酒,是天一觀的道長衔瓮。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么椒涯? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮袒啼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘纬纪。我一直安慰自己蚓再,他們只是感情好,可當我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布包各。 她就那樣靜靜地躺著摘仅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪问畅。 梳的紋絲不亂的頭發(fā)上娃属,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天六荒,我揣著相機與錄音,去河邊找鬼矾端。 笑死掏击,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的秩铆。 我是一名探鬼主播砚亭,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼殴玛!你這毒婦竟也來了捅膘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤滚粟,失蹤者是張志新(化名)和其女友劉穎寻仗,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凡壤,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡署尤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了鲤遥。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片沐寺。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖盖奈,靈堂內(nèi)的尸體忽然破棺而出混坞,到底是詐尸還是另有隱情,我是刑警寧澤钢坦,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布究孕,位于F島的核電站,受9級特大地震影響爹凹,放射性物質(zhì)發(fā)生泄漏厨诸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一禾酱、第九天 我趴在偏房一處隱蔽的房頂上張望微酬。 院中可真熱鬧,春花似錦颤陶、人聲如沸颗管。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽垦江。三九已至,卻和暖如春搅方,著一層夾襖步出監(jiān)牢的瞬間比吭,已是汗流浹背绽族。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留衩藤,地道東北人吧慢。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像慷彤,于是被迫代替她去往敵國和親娄蔼。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,955評論 2 355