文本預處理
建立字典
記一個文本預處理需要用到的字典斥赋,學習一下python
class Vocab(object):
def __init__(self, tokens, min_freq=0, use_special_tokens=False):
counter = count_corpus(tokens) # :
self.token_freqs = list(counter.items())
self.idx_to_token = []
if use_special_tokens:
# padding, begin of sentence, end of sentence, unknown
self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)
self.idx_to_token += ['', '', '', '']
else:
self.unk = 0
self.idx_to_token += ['']
self.idx_to_token += [token for token, freq in self.token_freqs
if freq >= min_freq and token not in self.idx_to_token]
self.token_to_idx = dict()
for idx, token in enumerate(self.idx_to_token):
self.token_to_idx[token] = idx
def __len__(self):
return len(self.idx_to_token)
def __getitem__(self, tokens):
if not isinstance(tokens, (list, tuple)):
return self.token_to_idx.get(tokens, self.unk)
return [self.__getitem__(token) for token in tokens]
def to_tokens(self, indices):
if not isinstance(indices, (list, tuple)):
return self.idx_to_token[indices]
return [self.idx_to_token[index] for index in indices]
def count_corpus(sentences):
tokens = [tk for st in sentences for tk in st]
return collections.Counter(tokens) # 返回一個字典残邀,記錄每個詞的出現次數
語言模型
n元語法和馬爾可夫假設
馬爾可夫假設:一個詞的出現只與前面n個詞有關
n元模型的缺陷
1.參數空間大
p(w1)p(w2|w1)p(w3|w1,w2)
v + v**2 + v**3
2.數據稀疏
齊夫定律:大多數單詞的頻率很小
循環(huán)神經網絡
基于n元模型的理論徙赢,避免缺陷
時序數據:時序數據的一個樣本通常包含連續(xù)的字符
采樣方式:隨機采樣和相鄰采樣。
隨機采樣和相鄰采樣示例(來自評論區(qū))
聽完課之后總結了一下隨機采樣和相鄰采樣吓蘑,并且花了點時間畫了一下自己理解的原理圖钥顽,如果有錯誤請大家指出來。
本次課程中舞箍,講課的老師講的非常的詳細舰褪,包括前面語言模型,N元模型疏橄,都非常的清楚抵知。
建議第一次沒有看懂的同學多看幾次。
循環(huán)神經網絡
循環(huán)神經網絡
梯度衰減或梯度爆炸
反向傳播方式:通過時間反向傳播软族,BPTT(針對循環(huán)層的訓練算法)
梯度是冪的形式刷喜,指數是時間步數
應對方法:裁剪梯度(只能應對梯度爆炸)
\min\left(\frac{\theta}{|\boldsymbol{g}|}, 1\right)\boldsymbol{g}
超參數
在機器學習的上下文中,超參數是在開始學習過程之前設置值的參數立砸,而不是通過訓練得到的參數數據掖疮。 通常情況下,需要對超參數進行優(yōu)化颗祝,給學習機選擇一組最優(yōu)超參數浊闪,以提高學習的性能和效果恼布。
epoch
深度學習中 number of training epochs 中的 epoch到底指什么?
回答一
epoch:1個epoch表示過了1遍訓練集中的所有樣本搁宾。
RNN的state
定義模型RNN中的state維護一些狀態(tài)折汞,都是維護哪些狀態(tài),這些狀態(tài)具體什么作用和效果呢盖腿?
對于RNN來講爽待,就是隱藏狀態(tài)H,因為RNN在計算H_{t}時會用到H_{t-1}翩腐,所以需要維護這個狀態(tài)