用fp16訓(xùn)練的時(shí)候兵迅,得單獨(dú)把transformer layer改成fp32兜畸,不然可能loss不降 checkpoint+ddp的時(shí)候涵防,可能會(huì)報(bào)...
1. 通過下標(biāo)取數(shù)據(jù):index_select torch.index_select(input, dim, index)input: 待ind...
今天讀了一篇比較古老的文章筐喳,是曠視發(fā)表在ECCV18的一篇目標(biāo)檢測(cè)文章法绵,DetNet转质。這篇文章應(yīng)該緊跟著FPN發(fā)表的佩抹,主要針對(duì)目標(biāo)檢測(cè)通用bac...
這篇文章是從改進(jìn)ViT輸入的角度來做的叼风,在最初版本的ViT中,是將圖像分成16*16個(gè)patch棍苹,每個(gè)patch展開為一個(gè)向量无宿,作為ViT的序列...
字節(jié)跳動(dòng)AI Lab最新的工作,研究了如何把ViT做的更深的問題枢里。之前的ViT采用的都是固定的12層孽鸡,所不同的是head的數(shù)目和embeddin...
這篇文章最大的貢獻(xiàn)就是有效降低了vision transformer的訓(xùn)練成本(時(shí)間以及數(shù)據(jù))蹂午,提高了ViT實(shí)驗(yàn)的可復(fù)現(xiàn)性,本文所提出的DeiT...
谷歌和伯克利一起提出的Bottleneck Transformer(BoT)屬于一種hybrid network彬碱,將cnn和transforme...
(可能)是第一次大規(guī)模的采用純transformer做cv任務(wù)的文章画侣,驗(yàn)證了transformer在cv領(lǐng)域的有效性,大大的挖坑之作堡妒。 ViT的...
今天寫代碼的時(shí)候遇到一個(gè)問題配乱,網(wǎng)絡(luò)前向過程中有一個(gè)張量A,我想把張量A中的大于0的值變成張量B中對(duì)應(yīng)的值皮迟,最初的實(shí)現(xiàn)是: 然后運(yùn)行起來就報(bào)錯(cuò)了搬泥,...