task2

文本預處理

建立字典

記一個文本預處理需要用到的字典斥赋，學習一下python

class Vocab(object):
    def __init__(self, tokens, min_freq=0, use_special_tokens=False):
        counter = count_corpus(tokens)  # : 
        self.token_freqs = list(counter.items())
        self.idx_to_token = []
        if use_special_tokens:
            # padding, begin of sentence, end of sentence, unknown
            self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)
            self.idx_to_token += ['', '', '', '']
        else:
            self.unk = 0
            self.idx_to_token += ['']
        self.idx_to_token += [token for token, freq in self.token_freqs
                        if freq >= min_freq and token not in self.idx_to_token]
        self.token_to_idx = dict()
        for idx, token in enumerate(self.idx_to_token):
            self.token_to_idx[token] = idx

    def __len__(self):
        return len(self.idx_to_token)

    def __getitem__(self, tokens):
        if not isinstance(tokens, (list, tuple)):
            return self.token_to_idx.get(tokens, self.unk)
        return [self.__getitem__(token) for token in tokens]

    def to_tokens(self, indices):
        if not isinstance(indices, (list, tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]

def count_corpus(sentences):
    tokens = [tk for st in sentences for tk in st]
    return collections.Counter(tokens)  # 返回一個字典残邀，記錄每個詞的出現次數

語言模型

n元語法和馬爾可夫假設

馬爾可夫假設：一個詞的出現只與前面n個詞有關

基于統(tǒng)計的語言模型：n元語法

馬爾可夫鏈

n元模型的缺陷

1.參數空間大

p(w1)p(w2|w1)p(w3|w1,w2)

v + v**2 + v**3

2.數據稀疏

齊夫定律：大多數單詞的頻率很小

循環(huán)神經網絡

基于n元模型的理論徙赢，避免缺陷

時序數據：時序數據的一個樣本通常包含連續(xù)的字符

采樣方式：隨機采樣和相鄰采樣。

隨機采樣和相鄰采樣示例（來自評論區(qū)）

聽完課之后總結了一下隨機采樣和相鄰采樣吓蘑，并且花了點時間畫了一下自己理解的原理圖钥顽，如果有錯誤請大家指出來。

0I3BsBmshG3xRWggUDH4v.jpg

本次課程中舞箍，講課的老師講的非常的詳細舰褪，包括前面語言模型，N元模型疏橄，都非常的清楚抵知。
建議第一次沒有看懂的同學多看幾次。

循環(huán)神經網絡

image

梯度衰減或梯度爆炸

反向傳播方式：通過時間反向傳播软族，BPTT（針對循環(huán)層的訓練算法）

梯度是冪的形式刷喜，指數是時間步數

應對方法：裁剪梯度（只能應對梯度爆炸）

\min\left(\frac{\theta}{|\boldsymbol{g}|}, 1\right)\boldsymbol{g}

超參數

在機器學習的上下文中，超參數是在開始學習過程之前設置值的參數立砸，而不是通過訓練得到的參數數據掖疮。通常情況下，需要對超參數進行優(yōu)化颗祝，給學習機選擇一組最優(yōu)超參數浊闪，以提高學習的性能和效果恼布。

epoch

深度學習中 number of training epochs 中的 epoch到底指什么？

回答一

epoch：1個epoch表示過了1遍訓練集中的所有樣本搁宾。

RNN的state

定義模型RNN中的state維護一些狀態(tài)折汞，都是維護哪些狀態(tài)，這些狀態(tài)具體什么作用和效果呢盖腿？

對于RNN來講爽待，就是隱藏狀態(tài)H，因為RNN在計算H_{t}時會用到H_{t-1}翩腐，所以需要維護這個狀態(tài)

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末鸟款，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子茂卦，更是在濱河造成了極大的恐慌何什，老刑警劉巖，帶你破解...
沈念sama閱讀 218,941評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件等龙，死亡現場離奇詭異处渣，居然都是意外死亡，警方通過查閱死者的電腦和手機蛛砰，發(fā)現死者居然都...
沈念sama閱讀 93,397評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門霍比，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人暴备，你說我怎么就攤上這事∶峭悖” “怎么了涯捻？”我有些...
開封第一講書人閱讀 165,345評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長望迎。經常有香客問我障癌，道長，這世上最難降的妖魔是什么辩尊？我笑而不...
開封第一講書人閱讀 58,851評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任涛浙，我火速辦了婚禮，結果婚禮上摄欲，老公的妹妹穿的比我還像新娘轿亮。我一直安慰自己，他們只是感情好胸墙，可當我...
茶點故事閱讀 67,868評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布我注。她就那樣靜靜地躺著，像睡著了一般迟隅。火紅的嫁衣襯著肌膚如雪但骨。梳的紋絲不亂的頭發(fā)上励七，一...
開封第一講書人閱讀 51,688評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音奔缠，去河邊找鬼掠抬。笑死，一個胖子當著我的面吹牛校哎，可吹牛的內容都是我干的两波。我是一名探鬼主播，決...
沈念sama閱讀 40,414評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼贬蛙，長吁一口氣：“原來是場噩夢啊……” “哼雨女！你這毒婦竟也來了？” 一聲冷哼從身側響起阳准，我...
開封第一講書人閱讀 39,319評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤氛堕，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后野蝇，有當地人在樹林里發(fā)現了一具尸體讼稚，經...
沈念sama閱讀 45,775評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年绕沈，在試婚紗的時候發(fā)現自己被綠了锐想。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,096評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡乍狐，死狀恐怖赠摇，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情浅蚪，我是刑警寧澤藕帜，帶...
沈念sama閱讀 35,789評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站惜傲，受9級特大地震影響洽故，放射性物質發(fā)生泄漏。R本人自食惡果不足惜盗誊，卻給世界環(huán)境...
茶點故事閱讀 41,437評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一时甚、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧哈踱，春花似錦荒适、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,993評論 0贊 22
一樁弒父案吻贿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至哑子，卻和暖如春舅列，著一層夾襖步出監(jiān)牢的瞬間肌割，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,107評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工帐要，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留把敞，地道東北人。一個月前我還...
沈念sama閱讀 48,308評論 3贊 372
代替公主和親
正文我出身青樓榨惠，卻偏偏與公主長得像奋早，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子赠橙，可洞房花燭夜當晚...
茶點故事閱讀 45,037評論 2贊 355

task2

文本預處理

建立字典

語言模型

n元語法和馬爾可夫假設

n元模型的缺陷

循環(huán)神經網絡

隨機采樣和相鄰采樣示例（來自評論區(qū)）

循環(huán)神經網絡

循環(huán)神經網絡

梯度衰減或梯度爆炸

超參數

epoch

RNN的state

推薦閱讀更多精彩內容