[toc] 背景知識: Spark與Hadoop差異 Spark是在借鑒了MapReduce之上發(fā)展而來的,繼承了其分布式并行計算的優(yōu)點并改進了...
為什么要layer Norm ?隨著網(wǎng)絡層數(shù)增加律姨,特征分布會變化隶垮,為了保持特征分布的穩(wěn)定性稚字,加速收斂layer Norm 和 Batch No...
為什么需要注意力機制?理解文本特纤、圖片信息军俊,能記住的信息是有限的侥加,模型要利用好每一刻有用的部分捧存,把注意力放在某一個部分seq2seq 存在1、長依...
詞向量:和獨熱編碼不同的是担败,可以表示一個詞的含義昔穴,但無法表示一詞多義 訓練詞向量的方法:基于非語言模型的方法:CBOW Skip-gram基于語...
語言模型:用于判斷一句話是否語法通順給已經(jīng)訓練好的語言模型可以對任何一個文本給出概率,概率越高說明語法上越通順 鏈式概率 P(今天是周日) = ...
seq2seq應用場景:文本生成:翻譯提前、看圖說話吗货、生成摘要 文本理解和生成文本encoder & decoderencoder,根據(jù)輸入序列生成...
輸入 x1 單詞對應一個embedding狈网,Ex1輸出 y' = [y1', y2', ...] (任務不同宙搬,使用的y不同:詞性標注,每個y'都...
矩陣分解法 構造矩陣X 形狀式詞庫size×詞庫size分解后得到S\V\D拓哺, 其中S矩陣就是詞向量壞處是 矩陣分解是全局方法勇垛,分解的過程依賴于...
文本表示基礎 單詞和句子的表示 迭代1:one-hot表示詞庫:[今天 天氣 很好]句子1:[今天 天氣 很好] = [1,1,1]缺點:沒有順...