論文:基于卷積神經網絡遷移學習的數據高效分類方法

原文:Data-Efficient Classification of Birdcall Through Convolutional Neural Networks Transfer Learning

Deep learning Convolutional Neural Network (CNN) models are powerful classification models but require a large amount of training data. In niche domains such as bird acoustics,it is expensive and difficult to obtain a large number of training samples. One method of classifying data with a limited number of training samples is to employ transfer learning. In this research,we evaluated the effectiveness of birdcall classification using transfer learning from a larger base dataset (2814 samples in 46 classes) to a smaller target dataset (351 samples in 10 classes) using the ResNet-50 CNN. We obtained 79% average validation accuracy on the target dataset in 5-fold cross-validation. The methodology of transfer learning from an ImageNet-trained CNN to a project-specific and a much smaller set of classes and images was extended to the domain of spectrogram images, where the base dataset effectively played the role of the ImageNet.

生態(tài)學研究中斩箫,常用鳥叫聲的種類評價物種復雜度,而鳥叫聲數據不易收集,標注昂貴乘客,耗時狐血。

so,遷移學習 來了易核。

Dataset

本文模仿了圖片分類中常用的base dataset---Image net匈织,創(chuàng)建了一個“SoundNet”數據集(公開數據集,BirdCELF挑戰(zhàn)賽中使用的Xeno-Canto集的子集)牡直,其中包含了在距離巴西南部庫里蒂巴市250公里半徑內記錄的鳥鳴缀匕。--------------------Source dataset

作者家鄉(xiāng)澳大利亞昆士蘭州常見的10種鳥類的叫聲,在Xeno-Canto網站上至少有20個人工注釋(且置信分數很高)的記錄碰逸。數據集有10種鳥類的351個音頻樣本--------------------Target dataset

除了sourcet和target數據集之外乡小,CNN模型還使用與sourcet和target數據集相似但來自不同域的Negative dataset進行訓練(公開)。該數據集有243個環(huán)境聲音的16930個聲音實例饵史,這些聲音都不是鳥鳴满钟。

將以上數據轉換為光譜圖。

Model

這項研究的重點是驗證ImageNet式的遷移學習胳喷,而不是發(fā)明一個更好的CNN聲音分類模型零远。因此,我們使用了的ResNet-50 CNN厌蔽,這是一個50層深的CNN架構牵辣,用來對鳥鳴進行分類。RESNET-50是第一個利用殘差學習的深度CNN架構奴饮。RESNET-50已經成功地提高了計算機視覺挑戰(zhàn)比賽中的準確性纬向,獲得了ImageNet大型視覺識別挑戰(zhàn)賽2015(ILSVRC,2015)和Microsoft Common Objects in Context 2015競賽的一等獎戴卜。

改進模型

在ImageNet訓練的ResNet-50模型和輸入灰度圖像(譜圖)之間增加一個可學習通道逾条,將RetNet-50所期望的3通道RGB圖像的單通道灰度譜圖轉換為單通道灰度譜圖;

在丟棄原始ResNet-50中的ImageNet分類器層后投剥,添加全局最大池化層师脂,然后是0.5概率丟棄層,將ResNet-50的最后2維(具有2048個通道)熱圖輸出轉換為2048個特征向量江锨;

所需的分類是通過添加完全連接的Sigmoid激活層(分類器層)來實現的吃警,以適應基礎或目標數據集中的類數。

Base Dataset Training

我們將Keras中ResNet-50模型與TensorFlow Backend一起使用啄育。該模型經過訓練以識別1000個不同的ImageNet對象類酌心。原來的ImageNetTraded架構被修改為分47個類別(46個類別的鳥鳴基本數據集+1個負的類別聲音數據集),方法是移除其1000個類別的頂部挑豌,添加全局2D最大池安券、0.5個dropout和一個47個神經元完全連接層墩崩。具體地說,訓練光譜圖被隨機裁剪成具有256行和256列侯勉。然后鹦筹,網絡接受256×256×1的輸入圖像,其中灰度譜圖圖像通過可訓練的1×1卷積層被轉換成ResNet CNN期望的三個顏色通道址貌。

Target Dataset Training

在用46只鳥的基礎數據集訓練ResNet-50模型之后盛龄,為了將學習從基礎數據集遷移到目標10只鳥的數據集,ResNet-50被修改為分類11類(10類鳥叫基礎數據集+1個負類聲音數據集)芳誓。這是通過將最后一個密集連接的47個神經元層替換為11個全連接層來實現的余舶。訓練流水線保持與前面47個類別的情況相同;即锹淌,使用類別加權的二進制交叉熵損失函數進行訓練匿值。然后,用來自目標數據集的所有351個標記的譜圖對ResNet-50進行訓練赂摆,這些譜圖分別被隨機分為72%(即90%的80%)挟憔、18%(即90%的20%)和10%的訓練、驗證和測試子集烟号,以監(jiān)視訓練過程并估計CNN的預測準確性绊谭。此外,對于每個訓練時期汪拥,從負數據集中隨機選擇175個樣本达传。執(zhí)行隨機五次交叉驗證:重復完整訓練(來自46只鳥的預先訓練的ResNet-50)周期五次,其中每次使用不同的隨機種子來選擇訓練迫筑、驗證和測試圖像的不同子集宪赶。

Result

圖4(A)和圖4(B)分別給出了ResNet-50模型在基礎和目標鳥鳴數據集上的訓練過程。在圖4(B)中脯燃,較淺的顏色表示較高的點密度搂妻。對于這兩個數據集,ResNet-50在從光譜圖中隨機裁剪的256(高)×256(寬)圖像上進行訓練辕棚。

對于基礎數據集的訓練欲主,網絡達到了約82%的訓練正確率和78%的驗證正確率。精度在150個紀元之后開始趨于平臺期逝嚎。在NVIDIA GTX 1080 Ti 上對ResNet-50模型進行培訓花費了大約10個小時扁瓢。

對于目標數據集,網絡達到了大約89%的訓練準確率和79%的驗證準確率懈糯。精度在50個紀元后開始趨于平涤妒。在NVIDIA GTX 1080 Ti 對ResNet-50模型進行培訓花費了大約2個小時单雾。

兩種情況下的訓練精度都僅比驗證精度高出少量(<~9%)赚哗。這表明網絡沒有與訓練數據擬合不足或過度擬合她紫。請注意,只有額外的訓練噪聲屿储、隨機的行和列縮放以及大得多的負數據集才能防止ResNet-50模型嚴重過度擬合如此小的目標數據集(10只鳥只有351張圖像)贿讹。

圖5顯示了目標數據集的測試樣本的實際分類與預測分類的混淆矩陣(在五個訓練/測試交叉驗證上平均)。不出所料够掠,負類(非鳥鳴類)的分類正確率最高民褂。在目標數據集的鳥鳴中,類別10(圖2(J)牙鲆)由于其非常明顯的鳥類叫聲特征而具有最高的正確分類疯潭,而類別7(圖2(G)Meliphaga gracilis)的正確分類最低赊堪。為了進行測試,將每個測試圖像轉換為一系列50%列重疊的256×256圖像竖哩,然后使用最大類別預測值(針對11個類別中的每一個)來分配測試圖像的分類預測哭廉。雖然這項研究假設每幅圖像只有一個鳥類物種,但將來可以使用相同的測試程序從同一圖像中提取多個鳥類物種相叁,例如通過使用激活級別閾值遵绰。

CONCLUSION

在本研究中,我們評估了遷移學習在鳥類叫聲分類中的應用增淹。我們評估了從較大基數的鳥聲數據集(2814聲)到較小的目標數據集(351聲)的遷移學習的應用椿访,因為很難獲得特定鳥類的大量鳥鳴。除了開發(fā)跨領域和領域內的知識轉移程序外虑润,我們還開發(fā)了一種新的(至少對于聲音領域)正規(guī)化技術成玫,使用由環(huán)境聲音(非鳥鳴)組成的更大的負例池。大量的負樣本迫使訓練將重點放在鳥鳴上拳喻,而不是非鳥類周圍的聲音上梁剔,這有助于防止大容量ResNet50 CNN對相對較少的訓練樣本進行過度擬合。由于ResNet-50在2015年ILSVRC和MS Coco 2015大賽中成功地進行了圖像分類舞蔽,我們使用了Deep CNN ResNet-50進行特征提取和分類[39]荣病。此外,ResNet-50已經成功地對鳥類叫聲進行了分類[40]渗柿。

我們通過微調ResNet-50將遷移學習從較大的基礎數據集應用到較小的目標數據集(僅351個樣本)个盆。有效地,從較大的基礎數據集中提取的特征被用于對較小的目標數據集進行分類朵栖。在本研究中颊亮,我們使用數據效率高的少量鳥鳴樣本實現了79%的驗證分類正確率。

僅供自學記錄使用陨溅,轉載注明出處终惑。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市门扇,隨后出現的幾起案子雹有,更是在濱河造成了極大的恐慌偿渡,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件霸奕,死亡現場離奇詭異溜宽,居然都是意外死亡,警方通過查閱死者的電腦和手機质帅,發(fā)現死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門适揉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人煤惩,你說我怎么就攤上這事嫉嘀。” “怎么了魄揉?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵吃沪,是天一觀的道長。 經常有香客問我什猖,道長票彪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任不狮,我火速辦了婚禮降铸,結果婚禮上,老公的妹妹穿的比我還像新娘摇零。我一直安慰自己推掸,他們只是感情好,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布驻仅。 她就那樣靜靜地躺著谅畅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪噪服。 梳的紋絲不亂的頭發(fā)上毡泻,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天,我揣著相機與錄音粘优,去河邊找鬼仇味。 笑死,一個胖子當著我的面吹牛雹顺,可吹牛的內容都是我干的丹墨。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼嬉愧,長吁一口氣:“原來是場噩夢啊……” “哼贩挣!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤王财,失蹤者是張志新(化名)和其女友劉穎卵迂,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體搪搏,經...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡狭握,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年闪金,在試婚紗的時候發(fā)現自己被綠了疯溺。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡哎垦,死狀恐怖囱嫩,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情漏设,我是刑警寧澤墨闲,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站郑口,受9級特大地震影響鸳碧,放射性物質發(fā)生泄漏。R本人自食惡果不足惜犬性,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一瞻离、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧乒裆,春花似錦套利、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至稿黄,卻和暖如春喊衫,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背杆怕。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工格侯, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人财著。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓联四,卻偏偏與公主長得像,于是被迫代替她去往敵國和親撑教。 傳聞我的和親對象是個殘疾皇子朝墩,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355