用fp16訓(xùn)練的時(shí)候缤言,得單獨(dú)把transformer layer改成fp32家坎,不然可能loss不降 checkpoint+ddp的時(shí)候愤诱,可能會(huì)報(bào)這個(gè)錯(cuò):把find_unuse...
![240](https://upload.jianshu.io/users/upload_avatars/5740488/88fc7c15-0ad5-4781-819d-29ef51154bbc.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
用fp16訓(xùn)練的時(shí)候缤言,得單獨(dú)把transformer layer改成fp32家坎,不然可能loss不降 checkpoint+ddp的時(shí)候愤诱,可能會(huì)報(bào)這個(gè)錯(cuò):把find_unuse...
1. 通過(guò)下標(biāo)取數(shù)據(jù):index_select torch.index_select(input, dim, index)input: 待index的tensordim: 在...
今天讀了一篇比較古老的文章,是曠視發(fā)表在ECCV18的一篇目標(biāo)檢測(cè)文章,DetNet。這篇文章應(yīng)該緊跟著FPN發(fā)表的柑船,主要針對(duì)目標(biāo)檢測(cè)通用backbone的問(wèn)題以及FPN的問(wèn)...
這篇文章是從改進(jìn)ViT輸入的角度來(lái)做的,在最初版本的ViT中泼各,是將圖像分成16*16個(gè)patch鞍时,每個(gè)patch展開(kāi)為一個(gè)向量,作為ViT的序列化輸入。這種做法雖然簡(jiǎn)單逆巍,但是...
字節(jié)跳動(dòng)AI Lab最新的工作及塘,研究了如何把ViT做的更深的問(wèn)題。之前的ViT采用的都是固定的12層锐极,所不同的是head的數(shù)目和embedding的通道數(shù)笙僚,由此構(gòu)成small...
這篇文章最大的貢獻(xiàn)就是有效降低了vision transformer的訓(xùn)練成本(時(shí)間以及數(shù)據(jù)),提高了ViT實(shí)驗(yàn)的可復(fù)現(xiàn)性灵再,本文所提出的DeiT只需要在8塊gpu上訓(xùn)練不到3...
谷歌和伯克利一起提出的Bottleneck Transformer(BoT)屬于一種hybrid network肋层,將cnn和transformer結(jié)合起來(lái),以期達(dá)到比二者單獨(dú)...
(可能)是第一次大規(guī)模的采用純transformer做cv任務(wù)的文章翎迁,驗(yàn)證了transformer在cv領(lǐng)域的有效性栋猖,大大的挖坑之作。 ViT的網(wǎng)絡(luò)結(jié)構(gòu)其實(shí)很簡(jiǎn)單汪榔,就是一個(gè)普...
今天寫(xiě)代碼的時(shí)候遇到一個(gè)問(wèn)題蒲拉,網(wǎng)絡(luò)前向過(guò)程中有一個(gè)張量A,我想把張量A中的大于0的值變成張量B中對(duì)應(yīng)的值痴腌,最初的實(shí)現(xiàn)是: 然后運(yùn)行起來(lái)就報(bào)錯(cuò)了雌团,原因是這個(gè)操作屬于in-pla...
文章: FAIR的工作,用于改善實(shí)例分割以及語(yǔ)義分割的邊緣分割結(jié)果士聪。分割網(wǎng)絡(luò)通常都輸出比原圖小很多的預(yù)測(cè)結(jié)果锦援,然后將預(yù)測(cè)結(jié)果插值回原圖大小,由此導(dǎo)致邊緣通常不太準(zhǔn)確剥悟。本文提出...
文章:Sun P, Jiang Y, Xie E, et al. OneNet: Towards End-to-End One-Stage Object Detection[...
冬天的圓明園真是很蕭瑟呢雨涛,最不怕冷的可能就是湖里的鴨子了,游得飛起~ 今天走了一萬(wàn)八千步懦胞,腳趾頭都凍掉了,幸好最后吃上了一碗熱湯拉面凉泄。不過(guò)有一說(shuō)一躏尉,這家還是石鍋拌飯更好吃一些~
這篇paper做的任務(wù)是video-text retrieval任務(wù),也就是給定文本檢索視頻或給定視頻檢索文本后众。為了應(yīng)對(duì)復(fù)雜的語(yǔ)言和視頻內(nèi)容胀糜,本文提出了層級(jí)化的graph r...
我發(fā)現(xiàn),手寫(xiě)損失函數(shù)一般都會(huì)運(yùn)用到很多稍微復(fù)雜一些的張量操作蒂誉,很適合用來(lái)學(xué)習(xí)pytorch張量操作教藻,所以這里分析幾個(gè)常用損失函數(shù)練習(xí)一下。 1. Binary Cross E...
@馬春杰杰 不要把這層的參數(shù)加到optimizer里就可以了
pytorch學(xué)習(xí)經(jīng)驗(yàn)(三) pytorch自定義卷積核操作本文的目的是使用自定義的卷積核對(duì)圖片進(jìn)行卷積操作右锨。pytorch封裝在torch.nn里的Conv2d非常好用括堤,然而其卷積核的權(quán)重都是需要學(xué)習(xí)的參數(shù),如果想要自定義一個(gè)卷積核...
60 第k個(gè)排列 從高到低,依次確定每一位的取值悄窃。首先讥电,對(duì)于第n位來(lái)說(shuō), 每(n-1)!對(duì)應(yīng)一個(gè)數(shù)轧抗,所以用k除以(n-1)碘耳!返咱,來(lái)確定第n位的數(shù);對(duì)于n-1位來(lái)說(shuō),每(n-2)...
329 矩陣中的最大值 普通深搜倒數(shù)第三個(gè)例子超時(shí)了允悦,所以用了記憶數(shù)組來(lái)減少重復(fù)計(jì)算。設(shè)置pl數(shù)組颜骤,初始化全部為0擒抛,保存以(i,j)為路徑開(kāi)始绽乔,最長(zhǎng)遞增路徑的長(zhǎng)度弧蝇。每次向四個(gè)...
84 柱狀圖中的最大矩形 每個(gè)高度的矩形寬度取決于向左數(shù)第一個(gè)不大于這個(gè)高度的位置,和向右數(shù)第一個(gè)小于這個(gè)高度的位置的距離折砸。用單調(diào)棧看疗,棧頂元素為最大值。每次遍歷到第i個(gè)位置時(shí)...
201 數(shù)字范圍按位與 這個(gè)題目面騰訊的時(shí)候遇到了睦授,做過(guò)去的時(shí)候剛開(kāi)始思考两芳,沒(méi)什么時(shí)間了,后面發(fā)現(xiàn)竟然是力扣原題去枷,幸好是選做題嘖嘖嘖怖辆。 :如下圖所示,找到m和n的公共前綴删顶,也...