task2

文本預處理

建立字典

記一個文本預處理需要用到的字典斥赋,學習一下python

class Vocab(object):
    def __init__(self, tokens, min_freq=0, use_special_tokens=False):
        counter = count_corpus(tokens)  # : 
        self.token_freqs = list(counter.items())
        self.idx_to_token = []
        if use_special_tokens:
            # padding, begin of sentence, end of sentence, unknown
            self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)
            self.idx_to_token += ['', '', '', '']
        else:
            self.unk = 0
            self.idx_to_token += ['']
        self.idx_to_token += [token for token, freq in self.token_freqs
                        if freq >= min_freq and token not in self.idx_to_token]
        self.token_to_idx = dict()
        for idx, token in enumerate(self.idx_to_token):
            self.token_to_idx[token] = idx

    def __len__(self):
        return len(self.idx_to_token)

    def __getitem__(self, tokens):
        if not isinstance(tokens, (list, tuple)):
            return self.token_to_idx.get(tokens, self.unk)
        return [self.__getitem__(token) for token in tokens]

    def to_tokens(self, indices):
        if not isinstance(indices, (list, tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]

def count_corpus(sentences):
    tokens = [tk for st in sentences for tk in st]
    return collections.Counter(tokens)  # 返回一個字典残邀,記錄每個詞的出現次數

語言模型

n元語法和馬爾可夫假設

馬爾可夫假設:一個詞的出現只與前面n個詞有關

基于統(tǒng)計的語言模型:n元語法

馬爾可夫鏈

n元模型的缺陷

1.參數空間大

p(w1)p(w2|w1)p(w3|w1,w2)

v + v**2 + v**3

2.數據稀疏

齊夫定律:大多數單詞的頻率很小

循環(huán)神經網絡

基于n元模型的理論徙赢,避免缺陷

時序數據:時序數據的一個樣本通常包含連續(xù)的字符

采樣方式:隨機采樣和相鄰采樣。

隨機采樣和相鄰采樣示例(來自評論區(qū))

聽完課之后總結了一下隨機采樣和相鄰采樣吓蘑,并且花了點時間畫了一下自己理解的原理圖钥顽,如果有錯誤請大家指出來。

0I3BsBmshG3xRWggUDH4v.jpg

本次課程中舞箍,講課的老師講的非常的詳細舰褪,包括前面語言模型,N元模型疏橄,都非常的清楚抵知。
建議第一次沒有看懂的同學多看幾次。

循環(huán)神經網絡

循環(huán)神經網絡

image

梯度衰減或梯度爆炸

反向傳播方式:通過時間反向傳播软族,BPTT(針對循環(huán)層的訓練算法)

梯度是冪的形式刷喜,指數是時間步數

應對方法:裁剪梯度(只能應對梯度爆炸)

\min\left(\frac{\theta}{|\boldsymbol{g}|}, 1\right)\boldsymbol{g}

超參數

在機器學習的上下文中,超參數是在開始學習過程之前設置值的參數立砸,而不是通過訓練得到的參數數據掖疮。 通常情況下,需要對超參數進行優(yōu)化颗祝,給學習機選擇一組最優(yōu)超參數浊闪,以提高學習的性能和效果恼布。

epoch

深度學習中 number of training epochs 中的 epoch到底指什么?

回答一

epoch:1個epoch表示過了1遍訓練集中的所有樣本搁宾。

RNN的state

定義模型RNN中的state維護一些狀態(tài)折汞,都是維護哪些狀態(tài),這些狀態(tài)具體什么作用和效果呢盖腿?

對于RNN來講爽待,就是隱藏狀態(tài)H,因為RNN在計算H_{t}時會用到H_{t-1}翩腐,所以需要維護這個狀態(tài)

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末鸟款,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子茂卦,更是在濱河造成了極大的恐慌何什,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件等龙,死亡現場離奇詭異处渣,居然都是意外死亡,警方通過查閱死者的電腦和手機蛛砰,發(fā)現死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門霍比,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人暴备,你說我怎么就攤上這事∶峭悖” “怎么了涯捻?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長望迎。 經常有香客問我障癌,道長,這世上最難降的妖魔是什么辩尊? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任涛浙,我火速辦了婚禮,結果婚禮上摄欲,老公的妹妹穿的比我還像新娘轿亮。我一直安慰自己,他們只是感情好胸墙,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布我注。 她就那樣靜靜地躺著,像睡著了一般迟隅。 火紅的嫁衣襯著肌膚如雪但骨。 梳的紋絲不亂的頭發(fā)上励七,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天,我揣著相機與錄音奔缠,去河邊找鬼掠抬。 笑死,一個胖子當著我的面吹牛校哎,可吹牛的內容都是我干的两波。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼贬蛙,長吁一口氣:“原來是場噩夢啊……” “哼雨女!你這毒婦竟也來了?” 一聲冷哼從身側響起阳准,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤氛堕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后野蝇,有當地人在樹林里發(fā)現了一具尸體讼稚,經...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年绕沈,在試婚紗的時候發(fā)現自己被綠了锐想。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡乍狐,死狀恐怖赠摇,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情浅蚪,我是刑警寧澤藕帜,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站惜傲,受9級特大地震影響洽故,放射性物質發(fā)生泄漏。R本人自食惡果不足惜盗誊,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一时甚、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧哈踱,春花似錦荒适、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至哑子,卻和暖如春舅列,著一層夾襖步出監(jiān)牢的瞬間肌割,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工帐要, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留把敞,地道東北人。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓榨惠,卻偏偏與公主長得像奋早,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子赠橙,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內容