原文：Data-Efficient Classification of Birdcall Through Convolutional Neural Networks Transfer Learning

Deep learning Convolutional Neural Network (CNN) models are powerful classification models but require a large amount of training data. In niche domains such as bird acoustics,it is expensive and difficult to obtain a large number of training samples. One method of classifying data with a limited number of training samples is to employ transfer learning. In this research,we evaluated the effectiveness of birdcall classification using transfer learning from a larger base dataset (2814 samples in 46 classes) to a smaller target dataset (351 samples in 10 classes) using the ResNet-50 CNN. We obtained 79% average validation accuracy on the target dataset in 5-fold cross-validation. The methodology of transfer learning from an ImageNet-trained CNN to a project-specific and a much smaller set of classes and images was extended to the domain of spectrogram images, where the base dataset effectively played the role of the ImageNet.

生態(tài)學研究中斩箫，常用鳥叫聲的種類評價物種復雜度，而鳥叫聲數據不易收集，標注昂貴乘客，耗時狐血。

so，遷移學習來了易核。

Dataset

本文模仿了圖片分類中常用的base dataset---Image net匈织，創(chuàng)建了一個“SoundNet”數據集（公開數據集，BirdCELF挑戰(zhàn)賽中使用的Xeno-Canto集的子集）牡直，其中包含了在距離巴西南部庫里蒂巴市250公里半徑內記錄的鳥鳴缀匕。--------------------Source dataset

作者家鄉(xiāng)澳大利亞昆士蘭州常見的10種鳥類的叫聲，在Xeno-Canto網站上至少有20個人工注釋(且置信分數很高)的記錄碰逸。數據集有10種鳥類的351個音頻樣本--------------------Target dataset

除了sourcet和target數據集之外乡小，CNN模型還使用與sourcet和target數據集相似但來自不同域的Negative dataset進行訓練（公開）。該數據集有243個環(huán)境聲音的16930個聲音實例饵史，這些聲音都不是鳥鳴满钟。

將以上數據轉換為光譜圖。

Model

這項研究的重點是驗證ImageNet式的遷移學習胳喷，而不是發(fā)明一個更好的CNN聲音分類模型零远。因此，我們使用了的ResNet-50 CNN厌蔽，這是一個50層深的CNN架構牵辣，用來對鳥鳴進行分類。RESNET-50是第一個利用殘差學習的深度CNN架構奴饮。RESNET-50已經成功地提高了計算機視覺挑戰(zhàn)比賽中的準確性纬向，獲得了ImageNet大型視覺識別挑戰(zhàn)賽2015(ILSVRC，2015)和Microsoft Common Objects in Context 2015競賽的一等獎戴卜。

改進模型

在ImageNet訓練的ResNet-50模型和輸入灰度圖像(譜圖)之間增加一個可學習通道逾条，將RetNet-50所期望的3通道RGB圖像的單通道灰度譜圖轉換為單通道灰度譜圖；

在丟棄原始ResNet-50中的ImageNet分類器層后投剥，添加全局最大池化層师脂，然后是0.5概率丟棄層，將ResNet-50的最后2維(具有2048個通道)熱圖輸出轉換為2048個特征向量江锨；

所需的分類是通過添加完全連接的Sigmoid激活層(分類器層)來實現的吃警，以適應基礎或目標數據集中的類數。

Base Dataset Training

我們將Keras中ResNet-50模型與TensorFlow Backend一起使用啄育。該模型經過訓練以識別1000個不同的ImageNet對象類酌心。原來的ImageNetTraded架構被修改為分47個類別(46個類別的鳥鳴基本數據集+1個負的類別聲音數據集)，方法是移除其1000個類別的頂部挑豌，添加全局2D最大池安券、0.5個dropout和一個47個神經元完全連接層墩崩。具體地說，訓練光譜圖被隨機裁剪成具有256行和256列侯勉。然后鹦筹，網絡接受256×256×1的輸入圖像，其中灰度譜圖圖像通過可訓練的1×1卷積層被轉換成ResNet CNN期望的三個顏色通道址貌。

Target Dataset Training

在用46只鳥的基礎數據集訓練ResNet-50模型之后盛龄，為了將學習從基礎數據集遷移到目標10只鳥的數據集，ResNet-50被修改為分類11類(10類鳥叫基礎數據集+1個負類聲音數據集)芳誓。這是通過將最后一個密集連接的47個神經元層替換為11個全連接層來實現的余舶。訓練流水線保持與前面47個類別的情況相同；即锹淌，使用類別加權的二進制交叉熵損失函數進行訓練匿值。然后，用來自目標數據集的所有351個標記的譜圖對ResNet-50進行訓練赂摆，這些譜圖分別被隨機分為72%(即90%的80%)挟憔、18%(即90%的20%)和10%的訓練、驗證和測試子集烟号，以監(jiān)視訓練過程并估計CNN的預測準確性绊谭。此外，對于每個訓練時期汪拥，從負數據集中隨機選擇175個樣本达传。執(zhí)行隨機五次交叉驗證：重復完整訓練(來自46只鳥的預先訓練的ResNet-50)周期五次，其中每次使用不同的隨機種子來選擇訓練迫筑、驗證和測試圖像的不同子集宪赶。

Result

圖4(A)和圖4(B)分別給出了ResNet-50模型在基礎和目標鳥鳴數據集上的訓練過程。在圖4(B)中脯燃，較淺的顏色表示較高的點密度搂妻。對于這兩個數據集，ResNet-50在從光譜圖中隨機裁剪的256(高)×256(寬)圖像上進行訓練辕棚。

對于基礎數據集的訓練欲主，網絡達到了約82%的訓練正確率和78%的驗證正確率。精度在150個紀元之后開始趨于平臺期逝嚎。在NVIDIA GTX 1080 Ti 上對ResNet-50模型進行培訓花費了大約10個小時扁瓢。

對于目標數據集，網絡達到了大約89%的訓練準確率和79%的驗證準確率懈糯。精度在50個紀元后開始趨于平涤妒。在NVIDIA GTX 1080 Ti 對ResNet-50模型進行培訓花費了大約2個小時单雾。

兩種情況下的訓練精度都僅比驗證精度高出少量(<～9%)赚哗。這表明網絡沒有與訓練數據擬合不足或過度擬合她紫。請注意，只有額外的訓練噪聲屿储、隨機的行和列縮放以及大得多的負數據集才能防止ResNet-50模型嚴重過度擬合如此小的目標數據集(10只鳥只有351張圖像)贿讹。

圖5顯示了目標數據集的測試樣本的實際分類與預測分類的混淆矩陣(在五個訓練/測試交叉驗證上平均)。不出所料够掠，負類(非鳥鳴類)的分類正確率最高民褂。在目標數據集的鳥鳴中，類別10(圖2(J)牙鲆)由于其非常明顯的鳥類叫聲特征而具有最高的正確分類疯潭，而類別7(圖2(G)Meliphaga gracilis)的正確分類最低赊堪。為了進行測試，將每個測試圖像轉換為一系列50%列重疊的256×256圖像竖哩，然后使用最大類別預測值(針對11個類別中的每一個)來分配測試圖像的分類預測哭廉。雖然這項研究假設每幅圖像只有一個鳥類物種，但將來可以使用相同的測試程序從同一圖像中提取多個鳥類物種相叁，例如通過使用激活級別閾值遵绰。

CONCLUSION

在本研究中，我們評估了遷移學習在鳥類叫聲分類中的應用增淹。我們評估了從較大基數的鳥聲數據集(2814聲)到較小的目標數據集(351聲)的遷移學習的應用椿访，因為很難獲得特定鳥類的大量鳥鳴。除了開發(fā)跨領域和領域內的知識轉移程序外虑润，我們還開發(fā)了一種新的(至少對于聲音領域)正規(guī)化技術成玫，使用由環(huán)境聲音(非鳥鳴)組成的更大的負例池。大量的負樣本迫使訓練將重點放在鳥鳴上拳喻，而不是非鳥類周圍的聲音上梁剔，這有助于防止大容量ResNet50 CNN對相對較少的訓練樣本進行過度擬合。由于ResNet-50在2015年ILSVRC和MS Coco 2015大賽中成功地進行了圖像分類舞蔽，我們使用了Deep CNN ResNet-50進行特征提取和分類[39]荣病。此外，ResNet-50已經成功地對鳥類叫聲進行了分類[40]渗柿。

我們通過微調ResNet-50將遷移學習從較大的基礎數據集應用到較小的目標數據集(僅351個樣本)个盆。有效地，從較大的基礎數據集中提取的特征被用于對較小的目標數據集進行分類朵栖。在本研究中颊亮，我們使用數據效率高的少量鳥鳴樣本實現了79%的驗證分類正確率。

僅供自學記錄使用陨溅，轉載注明出處终惑。

論文：基于卷積神經網絡遷移學習的數據高效分類方法