
[toc] 背景知識(shí): Spark與Hadoop差異 Spark是在借鑒了MapReduce之上發(fā)展而來(lái)的偷线,繼承了其分布式并行計(jì)算的優(yōu)點(diǎn)并改進(jìn)了...
為什么要layer Norm ?隨著網(wǎng)絡(luò)層數(shù)增加沽甥,特征分布會(huì)變化声邦,為了保持特征分布的穩(wěn)定性,加速收斂layer Norm 和 Batch No...
為什么需要注意力機(jī)制摆舟?理解文本亥曹、圖片信息,能記住的信息是有限的盏檐,模型要利用好每一刻有用的部分歇式,把注意力放在某一個(gè)部分seq2seq 存在1、長(zhǎng)依...
詞向量:和獨(dú)熱編碼不同的是胡野,可以表示一個(gè)詞的含義材失,但無(wú)法表示一詞多義 訓(xùn)練詞向量的方法:基于非語(yǔ)言模型的方法:CBOW Skip-gram基于語(yǔ)...
語(yǔ)言模型:用于判斷一句話是否語(yǔ)法通順給已經(jīng)訓(xùn)練好的語(yǔ)言模型可以對(duì)任何一個(gè)文本給出概率,概率越高說(shuō)明語(yǔ)法上越通順 鏈?zhǔn)礁怕?P(今天是周日) = ...
seq2seq應(yīng)用場(chǎng)景:文本生成:翻譯硫豆、看圖說(shuō)話龙巨、生成摘要 文本理解和生成文本encoder & decoderencoder,根據(jù)輸入序列生成...
輸入 x1 單詞對(duì)應(yīng)一個(gè)embedding熊响,Ex1輸出 y' = [y1', y2', ...] (任務(wù)不同旨别,使用的y不同:詞性標(biāo)注,每個(gè)y'都...
矩陣分解法 構(gòu)造矩陣X 形狀式詞庫(kù)size×詞庫(kù)size分解后得到S\V\D汗茄, 其中S矩陣就是詞向量壞處是 矩陣分解是全局方法秸弛,分解的過(guò)程依賴于...
文本表示基礎(chǔ) 單詞和句子的表示 迭代1:one-hot表示詞庫(kù):[今天 天氣 很好]句子1:[今天 天氣 很好] = [1,1,1]缺點(diǎn):沒(méi)有順...