- LeNet-5:這是最早的 CNN 模型之一珍语,用于手寫數(shù)字識別建车。
- AlexNet:在 LeNet-5 的基礎(chǔ)上進(jìn)行了改進(jìn),是 2012 年 ImageNet 競賽的冠軍模型垛孔。
- VGG:該模型在 AlexNet 基礎(chǔ)上進(jìn)一步加深了網(wǎng)絡(luò)結(jié)構(gòu)衡瓶,提高了性能长赞。
- GoogLeNet:這是一種高效的 CNN 模型渠啤,使用了 Inception 模塊跛锌。
- ResNet:具有殘差連接的深度 CNN 模型贱呐,在許多圖像識別任務(wù)中表現(xiàn)出色丧诺。
- DenseNet:通過密集連接來增強特征傳播,提高了模型的性能和效率奄薇。
- SENet:基于注意力機制的 CNN 模型驳阎,能夠自適應(yīng)地選擇重要特征。
- EfficientNet:結(jié)合了多種技術(shù)的高效模型,在計算資源有限的情況下表現(xiàn)良好搞隐。
VGG
VGG(Visual Geometry Group)神經(jīng)網(wǎng)絡(luò)是一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)驹愚,由牛津大學(xué)的視覺幾何組(Visual Geometry Group)于 2014 年提出。VGG 神經(jīng)網(wǎng)絡(luò)在圖像識別和計算機視覺領(lǐng)域取得了很好的效果劣纲,并成為了許多后續(xù)研究的基礎(chǔ)逢捺。
VGG 神經(jīng)網(wǎng)絡(luò)的主要特點包括:
使用小卷積核:VGG 網(wǎng)絡(luò)使用 3x3 的小卷積核,而不是較大的卷積核癞季。小卷積核可以增加網(wǎng)絡(luò)的深度劫瞳,同時減少參數(shù)數(shù)量,從而提高模型的效率和泛化能力绷柒。
增加網(wǎng)絡(luò)深度:VGG 網(wǎng)絡(luò)的深度相對較深志于,通常包含多個卷積層和全連接層。通過增加網(wǎng)絡(luò)深度废睦,可以捕捉圖像中的更多特征和模式伺绽。
使用池化層:VGG 網(wǎng)絡(luò)使用池化層(如最大池化)來對卷積特征進(jìn)行下采樣,從而減少特征圖的大小嗜湃,同時保留重要的信息奈应。
全連接層:在網(wǎng)絡(luò)的末尾,VGG 網(wǎng)絡(luò)通常使用全連接層來將卷積特征轉(zhuǎn)換為一維向量购披,以便進(jìn)行分類或回歸任務(wù)杖挣。
預(yù)訓(xùn)練和微調(diào):VGG 網(wǎng)絡(luò)通常在大規(guī)模圖像數(shù)據(jù)集(如 ImageNet)上進(jìn)行預(yù)訓(xùn)練,然后在特定任務(wù)上進(jìn)行微調(diào)刚陡。預(yù)訓(xùn)練可以幫助模型學(xué)習(xí)通用的圖像特征惩妇,微調(diào)則可以適應(yīng)特定任務(wù)的需求。
EfficientNet
EfficientNet 是一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)和縮放方法筐乳,由 Google Research 在 2019 年提出歌殃。它基于一個基礎(chǔ)模型 EfficientNet-B0,通過一種復(fù)合系數(shù)來統(tǒng)一縮放網(wǎng)絡(luò)的寬度哥童、深度和分辨率挺份。
縮放方法:
傳統(tǒng)的網(wǎng)絡(luò)縮放方法通常只獨立地縮放網(wǎng)絡(luò)的深度、寬度或分辨率贮懈。EfficientNet 提出了一種基于一個固定的比例來同時縮放這三個維度匀泊,以此來保持它們之間的平衡。
縮放系數(shù)由一個簡單的公式?jīng)Q定朵你,這個公式基于網(wǎng)絡(luò)的復(fù)雜度和資源的可用性各聘。
基礎(chǔ)模型(EfficientNet-B0):
EfficientNet 的起點是基礎(chǔ)模型 EfficientNet-B0,它是通過神經(jīng)架構(gòu)搜索(Neural Architecture Search, NAS)得到的一個高效的模型抡医。
優(yōu)點:
在 ImageNet 和五個常用的遷移學(xué)習(xí)數(shù)據(jù)集上躲因,以較少的參數(shù)和 FLOPS 超過最先進(jìn)的 accuracy早敬。
可以非常有效地擴大,在保持模型效率的同時提高 accuracy大脉。
遷移學(xué)習(xí)效果好搞监,能夠在不同任務(wù)中取得較好的性能。