1 引言
為了更好地監(jiān)測和分析各種作物和動物生長狀態(tài)泳炉,新的信息和通信技術(shù)被大量使用政冻,比如基于攝像機的圖像采集和基于傳感器的環(huán)境監(jiān)控等[1]牢硅。如何快速識別處理這些圖像和結(jié)構(gòu)化的監(jiān)測數(shù)據(jù)以支持智能決策是智能農(nóng)業(yè)領(lǐng)域的重要研究方向蒙谓。傳統(tǒng)處理技術(shù)包括機器學(xué)習(xí)(K-means聚類胸竞、支持向量機欺嗤、人工神經(jīng)網(wǎng)絡(luò)等),線性極化卫枝,小波濾波煎饼。近年來,深度學(xué)習(xí)(Deep learning校赤,DL)被大量采用吆玖,特別是在病蟲害檢測、植物和水果識別马篮、農(nóng)作物及雜草檢測與分類等智能農(nóng)業(yè)領(lǐng)域[2,3]沾乘。
DL是機器學(xué)習(xí)研究中的一個分支,其通過組合低層特征形成更抽象的高層表示屬性類別或特征积蔚,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征[4]意鲸。至今,DL已經(jīng)廣泛應(yīng)用圖像識別[5]尽爆、物體分類與檢測[6]怎顾、人臉識別[7,8]和語音識別[9]等。
相對于傳統(tǒng)機器學(xué)習(xí)漱贱,DL能更好地提取農(nóng)業(yè)領(lǐng)域所采集圖像和結(jié)構(gòu)化數(shù)據(jù)的各種特征槐雾,并與農(nóng)業(yè)機械有效結(jié)合,更好地支持農(nóng)業(yè)智能機械裝備的開發(fā)幅狮。因此募强,近年來株灸,DL受到農(nóng)業(yè)領(lǐng)域的高度重視,相應(yīng)研究成果不斷涌現(xiàn)擎值。Kamilaris等[10]對國外近年來DL在農(nóng)業(yè)領(lǐng)域中的應(yīng)用進(jìn)行了全面綜述慌烧。本文將對近年來國內(nèi)農(nóng)業(yè)領(lǐng)域DL的應(yīng)用現(xiàn)狀進(jìn)行綜述,一方面鸠儿,為農(nóng)業(yè)研究者提供可用的DL方法參考屹蚊;另一方面,以便于研究者快速精確地檢索與所研究問題相關(guān)的文獻(xiàn)进每。本綜述框架如下圖1所示汹粤。
圖1 論文框架
2 深度學(xué)習(xí)簡介
DL最早由Hinton及其團(tuán)隊于2006年提出,Hinton等[11]通過逐層初始化人工神經(jīng)網(wǎng)絡(luò)解決了大規(guī)模多層神經(jīng)網(wǎng)絡(luò)在訓(xùn)練速度上的難題田晚,奠定了DL的基礎(chǔ)嘱兼。2012年,Hinton及其學(xué)生通過Rectified linear neurons(RLN)和 Dropout 正則化改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)贤徒,并在ImageNet分類競賽上芹壕,將錯誤率降低至16%[12]。在接下來的幾年中泞莉,研究者對其DL神經(jīng)網(wǎng)絡(luò)進(jìn)行了不斷改進(jìn)哪雕,并將ImageNet分類錯誤率降低至零點幾個百分點船殉。2012年的突破標(biāo)志著基于DL的人工智能繁榮的開始鲫趁。2015年,LeCun利虫,Bengio及Hinton在Nature上共同發(fā)表了《Deep learning》的綜述挨厚,對DL進(jìn)行了定義:DL是一種更復(fù)雜的表示學(xué)習(xí),具有多個級別的表示糠惫,它通過組合簡單但非線性的模塊獲得疫剃,每個模塊將一個級別的表示(從原始輸入開始)轉(zhuǎn)換為更高、稍微抽象的級別的表示硼讽;有了足夠多的這種變換的組合巢价,就可以學(xué)習(xí)非常復(fù)雜的模式;對于分類任務(wù)固阁,較高的表示層會放大輸入中對識別重要的特征壤躲,并抑制無關(guān)變化[4]。2019年3月27日备燃,ACM(Association for computing machinery)將2018年的圖靈獎授予給了Hinton碉克、LeCun和Bengio,以獎勵這三位科學(xué)家在DL基本概念的發(fā)明并齐、實驗中驚人結(jié)果的發(fā)現(xiàn)及其在工程應(yīng)用中的重要突破等方面做出的重要貢獻(xiàn)漏麦。
DL的強大優(yōu)勢是特征學(xué)習(xí)客税,即從原始數(shù)據(jù)中自動提取特征,由較低層次特征的組合形成更高層次的特征[4]撕贞。不同的DL由各種不同的組件(例如卷積更耻、池化層、完全連接層捏膨、門酥夭、內(nèi)存單元、激活函數(shù)脊奋、編碼/解碼器等)構(gòu)成熬北,具體取決于所使用的網(wǎng)絡(luò)類型。當(dāng)前主要網(wǎng)絡(luò)類型有多層感知器(Multi-layer perceptron诚隙,MLP)[13]讶隐、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)[14,15]久又、深度置信網(wǎng)絡(luò)(Deep belief network巫延,DBN)[16]、遞歸神經(jīng)網(wǎng)絡(luò)(Recursive neural network地消,RNN)[17]等炉峰,其中CNN是農(nóng)業(yè)中最常用的一種網(wǎng)絡(luò)模型。
MLP是一種前饋人工神經(jīng)網(wǎng)絡(luò)模型脉执,其將輸入的多個數(shù)據(jù)集映射到單一的輸出的數(shù)據(jù)集上疼阔。CNN是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),具有表征學(xué)習(xí)能力半夷,能夠按其階層結(jié)構(gòu)對輸入信息進(jìn)行平移不變分類婆廊。DBN為概率生成模型,通過聯(lián)合概率分布推斷出數(shù)據(jù)樣本分布巫橄,其中生成模型通過訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)中的神經(jīng)元間的權(quán)重使得整個神經(jīng)網(wǎng)絡(luò)依據(jù)最大概率生成訓(xùn)練數(shù)據(jù)淘邻,形成高層抽象特征,提升模型分類性能湘换。RNN是具有樹狀階層結(jié)構(gòu)且網(wǎng)絡(luò)節(jié)點按其連接順序?qū)斎胄畔⑦M(jìn)行遞歸的人工神經(jīng)網(wǎng)絡(luò)宾舅,其可以引入門控機制以學(xué)習(xí)長距離依賴,具有靈活的拓?fù)浣Y(jié)構(gòu)且權(quán)重共享彩倚,適用于包含結(jié)構(gòu)關(guān)系的機器學(xué)習(xí)任務(wù)筹我,在自然語言處理領(lǐng)域有重要應(yīng)用[4]。
隨著DL的快速發(fā)展署恍,各種網(wǎng)絡(luò)架構(gòu)被提出崎溃。常用的網(wǎng)絡(luò)架構(gòu)有Lenet[18]、AlexNet[19]盯质、CaffeNet[20]袁串、VGGNet[21]概而、GoogleNet[22]、ResNet(Residual Neural Network)[23,24]囱修、Network in network[25,26]赎瑰、ResNeXt[27]等,研究人員在這些網(wǎng)絡(luò)架構(gòu)基礎(chǔ)上又相繼提出了RCNN[28]破镰、SPPNet[29]餐曼、SSD[30]、Fast R-CNN[31]鲜漩、Faster R-CNN[32]源譬、YOLO[33]等架構(gòu)。這些架構(gòu)的核心思想主要體現(xiàn)在兩個方面:一是它們的神經(jīng)元間的連接是非全連接的孕似;另一個是同一層中某些神經(jīng)元之間的連接的權(quán)重是共享的踩娘。這種非全連接和權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)使它們更類似于生物神經(jīng)網(wǎng)絡(luò),由此可以降低網(wǎng)絡(luò)模型的復(fù)雜度喉祭,減少權(quán)值的數(shù)量养渴。上述架構(gòu)均被一些數(shù)據(jù)集預(yù)先訓(xùn)練過網(wǎng)絡(luò)參數(shù),能為某些特定問題提供較好的分類泛烙、檢測和識別效果理卑。用于訓(xùn)練DL的常見數(shù)據(jù)集是ImageNet[34]、PASCAL VOC蔽氨、Labelme藐唠、COCO、SUN孵滞、PlantVillage等中捆。
同時,各種DL框架[35]被開發(fā)出來坊饶,例如加州大學(xué)伯克利分校視覺與學(xué)習(xí)中心維護(hù)的Caffe[36],谷歌的TensorFlow[37]殴蓬,微軟研究院的CNTK2.0[38]匿级,F(xiàn)acebook、Twitter染厅、Google等維護(hù)的Torch[39]痘绎,蒙特利大學(xué)的Theano[40]等。這些框架為DL模型的開發(fā)肖粮、訓(xùn)練孤页、測試、微調(diào)提供了統(tǒng)一平臺涩馆;且每一框架各自具有統(tǒng)一的代碼風(fēng)格行施、模板化的結(jié)構(gòu)允坚,能減少DL開發(fā)大量重復(fù)代碼的編寫[41]。
3 論文選擇和分布
農(nóng)業(yè)是指利用動植物的生長發(fā)育規(guī)律蛾号,通過人工培育來獲得產(chǎn)品的領(lǐng)域稠项,研究對象主要是有生命的動植物及其場地與環(huán)境等。相應(yīng)DL主要集中于影響植物生長發(fā)育的土壤水分及營養(yǎng)鲜结、溫濕度展运、病蟲害和影響動物健康生長的飼料營養(yǎng)、病害等領(lǐng)域精刷。通過國內(nèi)數(shù)據(jù)庫對深度學(xué)習(xí)拗胜、卷積神經(jīng)網(wǎng)絡(luò)、農(nóng)業(yè)怒允、農(nóng)田挤土、動物、土地覆蓋误算、土壤水分仰美、溫度、病蟲害等關(guān)鍵詞進(jìn)行搜索儿礼,發(fā)現(xiàn)大部分相關(guān)研究成果發(fā)表于2015年之后咖杂,且集中于種植和養(yǎng)殖業(yè)。因此蚊夫,本文選取了2015年到2019年3月間在這些領(lǐng)域中應(yīng)用DL的相關(guān)文章诉字。2019年3月,開展相應(yīng)檢索知纷,相應(yīng)條件設(shè)置如下:
(a)數(shù)據(jù)庫:中國知網(wǎng)壤圃、萬方數(shù)據(jù)庫;(b):深度學(xué)習(xí)琅轧;(c)植物類別:小麥伍绳、水稻、玉米乍桂、棉花冲杀、甜菜、黃瓜睹酌、煙葉权谁、油茶、菊花等農(nóng)作物憋沿,蘋果旺芽、柑橘、番茄等水果;(d)動物類別:豬采章,牛运嗜;(e)其他類別:土地覆蓋、土壤水分共缕,溫度洗出。
通過人工進(jìn)一步篩選最終確定65篇發(fā)表于核心期刊上的研究成果,所選論文在不同年份图谷、不同類別研究對象的分布情況如圖2所示翩活。從圖2中論文分布看,近2年DL在農(nóng)業(yè)中的應(yīng)用研究快速增加便贵,其中2018年相關(guān)研究成果為40篇菠镇,占比超過61%。從研究對象看承璃,80%(52篇)研究對象為植物利耍,17%(11篇)涉及土壤水分、溫度等資源環(huán)境分析盔粹,不到3%(2篇)研究對象涉及動物隘梨;說明現(xiàn)階段DL在我國農(nóng)業(yè)中的應(yīng)用主要側(cè)重于植物分類識別等研究。
圖2 所選論文分布
4 深度學(xué)習(xí)在我國農(nóng)業(yè)中的應(yīng)用
下面將從研究對象與目的舷嗡、數(shù)據(jù)源轴猎、數(shù)據(jù)差異、預(yù)處理进萄、數(shù)據(jù)擴增捻脖、模型與框架以及性能對比等角度對所選論文進(jìn)行綜述。
4.1 研究對象與目的
廣義農(nóng)業(yè)包括種植業(yè)中鼠、林業(yè)可婶、畜牧業(yè)、漁業(yè)援雇、副業(yè)矛渴。表1給出了DL應(yīng)用研究對象及其應(yīng)用目的。所綜述論文其研究對象和應(yīng)用目的分布如圖3所示熊杨。由表1及圖3可知DL在農(nóng)業(yè)中應(yīng)用主要集中于種植業(yè)和畜牧業(yè)曙旭。其中DL在種植業(yè)中主要集中于研究對象的分類、檢測晶府、識別;耕作場地和耕作環(huán)境的預(yù)測钻趋;而畜牧業(yè)主要集中于動物對象的識別川陆。
圖3 所選論文研究對象和應(yīng)用目的分布
表1 所綜述論文研究對象與目的
4.2 數(shù)據(jù)源
DL較其它算法能提高精準(zhǔn)度,但其前提是有足夠大的可用數(shù)據(jù)集來描述問題蛮位。所綜述論文中數(shù)據(jù)類型及獲取方式分類如表2所示较沪。由表2中數(shù)據(jù)類型可知鳞绕,農(nóng)業(yè)中用于構(gòu)建DL模型的常用數(shù)據(jù)類型有圖像和結(jié)構(gòu)化數(shù)值數(shù)據(jù),其中以圖像為主尸曼。
從表2中數(shù)據(jù)獲取方式看们何,圖像數(shù)據(jù)集的獲取可分為自行采集和公開數(shù)據(jù)集,自行采集圖像數(shù)據(jù)常通過無人機遙感控轿、地面相機拍照或錄像冤竹、搭載相機的無人機航拍、高光譜成像儀茬射、近紅外光譜儀等方式獲得鹦蠕。公開數(shù)據(jù)集一般來源于現(xiàn)有知名公開的標(biāo)準(zhǔn)庫,如MIT[104]在抛、Oxford-17 flower[62]钟病、Oxford-102 flower[62]、PlantVillage[43]刚梭、Flavia[64]肠阱、ICL[69]、ImageNet[72]和Kaggle[74]等朴读。結(jié)構(gòu)化數(shù)值數(shù)據(jù)主要通過傳感器在線監(jiān)測獲取屹徘。
從表2中樣本規(guī)模看磨德,研究針對具體應(yīng)用場景自行采集的圖像一般規(guī)模較小缘回。比如研究產(chǎn)量估算[93]、大田稻穗分割[65]典挑、森林蟲害監(jiān)測[47]酥宴、雜草識別[84]使用的圖像只有幾幅至幾十幅圖;因為通過無人機遙感或搭載相機航拍的地面范圍比較大您觉、像素比較高拙寡,這些圖像經(jīng)過預(yù)處理后也能得到幾百或者上千張用于訓(xùn)練和測試的圖像。而知名公開數(shù)據(jù)庫的樣本規(guī)模在3000~28000張之間琳水。
表2 數(shù)據(jù)源
類型獲取方式樣本規(guī)模應(yīng)用參考
圖像數(shù)據(jù)公開數(shù)據(jù)庫3000~28000張植物葉片/病害識別[43,62,64,69,72,74,83,104]
網(wǎng)上收集400~2472張植物病害檢測[46, 50, 53, 104]
無人機遙感/搭載相機航拍5~5149張土地覆蓋分類肆糕、植物識別[47, 67, 68, 84, 93, 94, 96, 97]
支架承載相機拍照/錄像550~40000張水果病變、動物生長在孝、植物病害識別诚啃,植物分類[42, 45, 49, 50, 52, 55-59, 61, 63, 65, 66, 70, 73, 75-82, 85, 86, 89-92, 105, 106]
高光譜成像儀300張龍眼葉片葉綠素含量預(yù)測[60, 87, 88]
近紅外光譜儀289~60張煙葉分類、土壤含水率預(yù)測[71, 100]
螺旋 CT 機4956張土壤斷層孔隙分割[101]
數(shù)值數(shù)據(jù)傳感器監(jiān)測4858~31076條溫室溫度預(yù)測私沮、農(nóng)田障礙物識別始赎、植物病害檢測[44, 48, 51, 54, 99, 102, 103]
調(diào)查/GPS定位11496條農(nóng)用地基準(zhǔn)地價評估[98]
統(tǒng)計年鑒數(shù)據(jù)14年耕地面積預(yù)測[95]
4.3 類間差異
一般,檢測、識別和分類等的準(zhǔn)確率與各類間的差異程度呈正相關(guān)關(guān)系造垛。就考慮類間差異來看魔招,DL在農(nóng)業(yè)中的應(yīng)用可以分為生物和非生物,其中生物的類間差異主要是指生物不同種類五辽、不同個體之間的外觀特征差異办斑;非生物的類間差異是地理位置特征差異和對生物的特征影響上的差異。類間差異的存在杆逗,是DL識別各類特征的基礎(chǔ)乡翅。
所綜述論文中有關(guān)類間差異分析如表3所示,其中花卉的分類存在著種間相似和種內(nèi)差異的現(xiàn)象[62,72]髓迎;果體病理圖像幾何特征差異比較明顯[61,91]峦朗;同類疾病,在致病環(huán)境相差不大時排龄,病果圖像往往表現(xiàn)出共性波势,也就會呈現(xiàn)出非常相似的特征[91]。刺兒橄维、灰菜與早熟禾的外形較為相似尺铣,莎草與玉米的外形較為相似,這種類間差異比較小的植物會導(dǎo)致DL識別準(zhǔn)確率下降[82]争舞。一些植物的特殊視圖(如番茄的花凛忿、果、莖竞川、葉之間有明顯差異) 提供了不同的莖店溢、葉、花和果實的分類標(biāo)準(zhǔn)委乌,能夠提高DL的分類準(zhǔn)確率[75]床牧。
表3 類間差異分析?
類型特征部位差異參考
不同
品種
生存條件差異時間、位置遭贸、物種戈咳、溫度等條件[46, 54, 93, 95, 96, 98, 99, 102-104]
莖葉植株莖葉外觀形狀[42, 43, 45, 47-53, 55-59, 64, 65, 67-69, 71, 81-89, 94, 97]
花花朵外觀形狀及顏色[62-64, 70, 72]
果果實外觀形狀及顏色[44, 60, 61, 74, 77, 79, 80, 90-92]
同一品種芽芽的朝向[66]
不同部位動物的頭、軀干壕吹、尾等部位/植物的莖著蛙、葉、花耳贬、果等部位外觀形狀及顏色[75, 76, 78, 105, 106]
4.4 數(shù)據(jù)預(yù)處理
所綜述論文97% (63篇)涉及數(shù)據(jù)預(yù)處理踏堡。預(yù)處理環(huán)節(jié)相應(yīng)預(yù)處理方法如表4所示,數(shù)據(jù)預(yù)處理過程包括數(shù)據(jù)清洗咒劲、數(shù)據(jù)轉(zhuǎn)換和降維處理暂吉。其中數(shù)據(jù)清洗技術(shù)主要是用于保證數(shù)據(jù)特定特征的完整性胖秒;數(shù)據(jù)轉(zhuǎn)換是為了滿足深度學(xué)習(xí)模型的要求缎患,將數(shù)據(jù)從一種格式或結(jié)構(gòu)轉(zhuǎn)換為另一種格式或結(jié)構(gòu)的過程慕的;降維是去除不相關(guān)和冗余的變量,降低分析和生成模型的復(fù)雜性挤渔,提高建模效率[107]肮街。最常見的預(yù)處理方法是調(diào)整圖像大小,包括圖像分割判导、縮放和歸一化(48篇)嫉父。根據(jù)DL模型的要求,圖像像素大小為600×600眼刃、256×256绕辖、128×128、95×95和48×48是最常見的尺寸擂红。
4.5 數(shù)據(jù)擴增
DL 模型一般是由多層非線性學(xué)習(xí)器組成仪际,模型較為復(fù)雜;要分析的數(shù)據(jù)是從復(fù)雜的自然環(huán)境中獲得昵骤。為了使DL模型具有較好的泛化性能树碱,需要盡可能多地增加訓(xùn)練樣本規(guī)模亏钩,數(shù)據(jù)補充和數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)擴增技術(shù)被提出腔稀。本文所綜述應(yīng)用研究中有37%(24篇)的文獻(xiàn)采用了數(shù)據(jù)擴增技術(shù)狼牺。
由表5可知绸栅,應(yīng)用最多的數(shù)據(jù)擴增技術(shù)有圖像隨機旋轉(zhuǎn)戳晌、剪裁奥秆、平移说庭、水平和垂直翻轉(zhuǎn)等方法玖像,以向模型提供不同環(huán)境的數(shù)據(jù)樱溉,從而改善模型學(xué)習(xí)過程挣输,提高模型泛化性能。特別是對那些只采集了少量數(shù)據(jù)的研究饺窿;比如在黃瓜葉部病害識別中采用隨機旋轉(zhuǎn)歧焦、水平翻轉(zhuǎn)圖像[52],在植物葉片圖像識別中采用隨機水平肚医、垂直翻轉(zhuǎn)及縮放圖像[69]等绢馍,將擴增的圖像和實際采集的圖像共同構(gòu)成數(shù)據(jù)集,然后在真實圖像上進(jìn)行測試肠套。因此舰涌,運用數(shù)據(jù)擴增技術(shù)使他們的模型能夠更一般化和更好的應(yīng)對現(xiàn)實中的復(fù)雜場景。
表4 數(shù)據(jù)預(yù)處理
類型目的方法參考
數(shù)據(jù)清除去噪中值濾波/去除毛刺/孔洞等噪聲[42, 45, 52, 53, 75, 87]
圖像補邊/拼接處理正射校正/影像拼接/填充目標(biāo)區(qū)孔洞[50, 65, 67, 94, 96, 100]
處理異常值對異常數(shù)據(jù)進(jìn)行糾正/剔除[98]
數(shù)據(jù)統(tǒng)計提取有價值信息[48]
特征補充增加時間特征[103]
數(shù)據(jù)轉(zhuǎn)換圖像分割分割成若干個像素一致的圖像[47, 49, 50, 55, 60, 65, 68, 72, 73, 76, 84, 92, 93, 96, 97, 101, 105, 106]
歸一化數(shù)據(jù)歸一化處理你稚,尺寸統(tǒng)一[43, 44, 49, 51, 52, 54, 58, 60, 61, 63, 69, 74, 80, 82, 83, 85, 89, 95, 98, 99, 104]
圖像縮放縮放轉(zhuǎn)換瓷耙,圖像大小統(tǒng)一尺寸[42, 45, 47, 50, 62, 66, 75, 77, 79, 81, 94]
灰度轉(zhuǎn)換把原始的彩色圖像轉(zhuǎn)換為灰度圖像[53, 76, 84, 87, 88, 93, 104]
空間轉(zhuǎn)換將RGB圖像轉(zhuǎn)變HSI彩色空間的圖像[45, 86]
格式轉(zhuǎn)換轉(zhuǎn)換成tfrecord數(shù)據(jù)文件[70]
降維降低維度高斯濾波[42, 51, 71, 85, 87]
表5 數(shù)據(jù)擴增技術(shù)
功能方法參考樣本劃分
數(shù)據(jù)補充分別模擬不同角度和背光場景下
對同一種病變果體的成像
[65, 76, 91]3:1:1
從互聯(lián)網(wǎng)上下載對應(yīng)類別圖片用于擴充圖片集[43]4:1
再次采集6幅特征光譜圖像和3幅主成分圖像[87]4:1
采集其他地區(qū)的玉米田間雜草圖像[82]5:1
再次采集健康草莓葉片的圖像[55]不同的比例
數(shù)據(jù)轉(zhuǎn)換隨機水平或垂直翻轉(zhuǎn)朱躺、隨機旋轉(zhuǎn)角度、
隨機縮放原圖等操作
[43, 50, 52, 58, 63, 69, 74, 75, 77, 81, 83, 84, 97]3:1:1或4:1
仿射變換搁痛、透視變換长搀、顏色抖動、對比度增強鸡典、疊加噪聲等操作引入輕微的擾動而實現(xiàn)數(shù)據(jù)擴充[45, 60, 61, 79, 80]4:1
注:表中3:1:1是訓(xùn)練集源请、驗證集、測試集的比例彻况,4:1或5:1為訓(xùn)練集與測試集的比例谁尸。
4.6 模型與框架
DL在農(nóng)業(yè)中的應(yīng)用研究一般包括模型優(yōu)化、框架選擇和模型訓(xùn)練與測試纽甘。所采用網(wǎng)絡(luò)結(jié)構(gòu)模型如表6所示良蛮。其中52% (34篇)的研究成果直接從頭開始訓(xùn)練針對特定研究對象的CNN,例如:多特征融合的CNN[62,87,93,104]等悍赢,以提高模型對特定研究對象的檢測决瞳、分類、識別等準(zhǔn)確率泽裳。31%(20篇)的研究成果是基于經(jīng)過大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練的經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)模型瞒斩,比如AlexNet、VGGNet涮总、ResNet胸囱、Faster R-CNN、GoogLenet瀑梗、LeNet等烹笔。還有7篇論文使用改進(jìn)的DBN。
所選論文所采用框架角度如表7所示抛丽。其中大部分研究集中于Caffe (18篇谤职,占比28%)、Tensorflow (12篇亿鲜,占比18%)和Keras (2篇)允蜈。Caffe被廣泛使用的一個可能原因是它包含了各種卷積神經(jīng)網(wǎng)絡(luò)模型和數(shù)據(jù)集,用戶可以輕松地調(diào)用這些數(shù)據(jù)集蒿柳。
其中模型訓(xùn)練和測試主要包括樣本的劃分饶套、訓(xùn)練策略的制定、初始參數(shù)設(shè)置與調(diào)優(yōu)等垒探。常見的劃分方式如表5最后一列所示妓蛮。一些論文中采用10折交叉驗證的策略,即每次選擇9個子集作為訓(xùn)練數(shù)據(jù)圾叼,1個子集作為測試數(shù)據(jù)蛤克,這種訓(xùn)練和驗證策略能夠充分利用數(shù)據(jù)集中的所有數(shù)據(jù)[46,51,52]捺癞。
初始化參數(shù)一般包括學(xué)習(xí)率、權(quán)重构挤、動量等髓介,學(xué)習(xí)率一般設(shè)置在0.001~0.01之間。為了進(jìn)一步優(yōu)化模型儿倒,Dropout正則化版保、梯度下降等調(diào)優(yōu)技術(shù)常被采用,比如為了避免求解器陷入局部極小值而顯著降低模型性能夫否,較通用的做法是開始設(shè)定一個較高的學(xué)習(xí)率,隨著訓(xùn)練的進(jìn)行而自適應(yīng)地降低叫胁。
表6 深度學(xué)習(xí)網(wǎng)絡(luò)模型選擇
模型網(wǎng)絡(luò)結(jié)構(gòu)網(wǎng)絡(luò)特點參考
自行構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)多特征融合的CNN提取的融合特征維度低于傳統(tǒng)的人工設(shè)計特征[62, 87, 93, 104]
端到端的CNN直接作用于原始圖像數(shù)據(jù)凰慈,通過逐層特征學(xué)習(xí),進(jìn)而利用多層網(wǎng)絡(luò)獲取特征信息[63]
7層結(jié)構(gòu)的CNN共享權(quán)值和逐漸下降的學(xué)習(xí)速率[89]
時變沖量學(xué)習(xí)的CNN參數(shù)訓(xùn)練過程實現(xiàn)網(wǎng)絡(luò)自我優(yōu)化驼鹅,自動提取果園物聯(lián)網(wǎng)傳感器采集的果體圖像病變特征[81, 92, 99]
二進(jìn)制哈希碼的CNN可有效地的將高維雜草特征進(jìn)行壓縮微谓,以便于實際田間雜草特征的存儲和后續(xù)計算[82]
MobileNet科優(yōu)先的CNN輕量CNN,能降低CNN的權(quán)重大小[64]
深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)選一種8層網(wǎng)絡(luò)用于番茄主要器官特征提取與表達(dá)[47, 49, 52, 53, 55, 56, 59, 61, 65, 72, 75, 84, 94, 96, 100, 103]
編碼器-解碼器為基礎(chǔ)的能夠自動從環(huán)境信息中學(xué)習(xí)到主要的非線性組合特征[54, 83]
基于RGB和HSI關(guān)系閾值法優(yōu)化的CNN基于區(qū)域的分割技術(shù)输钩,獲取前景目標(biāo)與背景在像素灰度值特征上的差異豺型,構(gòu)造一個區(qū)分不同區(qū)域的分水嶺[86]
YOLO的CNN通過單個CNN遍歷整個圖像,回歸目標(biāo)的類別和位置买乃,實現(xiàn)了直接端到端的目標(biāo)檢測[80]
Inception Net的CNN對得到的不同尺度特征圖進(jìn)行分類和位置回歸[70]
全卷積神經(jīng)網(wǎng)絡(luò)通過卷積和池化運算輸出不同尺度的孔隙特征圖姻氨,將孔隙的深層特征和淺層特征相融合[101]
自學(xué)習(xí)特征的CNN對圖像塊采用線性稀疏自動編碼器進(jìn)行自動學(xué)習(xí),獲取局部特征的權(quán)值矩陣[73]
已構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)AlexNet將訓(xùn)練好的模型繼續(xù)進(jìn)行遷移訓(xùn)練剪验,保留預(yù)訓(xùn)練模型所有卷積層的參數(shù)肴焊,只替換最后一層全連接層[43, 45, 50, 57, 58, 69, 74]
VGGNet優(yōu)化全連接層層數(shù),用6標(biāo)簽SoftMax分類器替換原有VGG-16網(wǎng)絡(luò)中的分類器優(yōu)化模型結(jié)構(gòu)和參數(shù)[42, 68, 97]
ResNet對塊圖像的特征進(jìn)行抽象與學(xué)習(xí)功戚,以自動獲取更加深層抽象更具代表性的圖像塊深層特征[68, 77, 79]
Fast R-CNN5個卷積層的網(wǎng)絡(luò)即可具有較高的特征提取和分類性能娶眷,增加或降低卷積層數(shù)都會使網(wǎng)絡(luò)性能下降[46, 76, 78, 105]
GoogLeNet利用多尺度卷積核提取不同尺度穗瘟病斑分布式特征并進(jìn)行級聯(lián)融合[60, 106]
LeNet將方形矩陣卷積核改為適用于一維近紅外光譜的向量卷積核,簡化網(wǎng)絡(luò)結(jié)構(gòu)[71]
深度置信網(wǎng)絡(luò)多個限制玻爾茲曼機(RBM)堆疊而成引入神經(jīng)膠質(zhì)改進(jìn)深度信念網(wǎng)絡(luò)啸臀,并將分解信號結(jié)合光照和二氧化碳進(jìn)行多因子的特征提取[44, 48, 51, 67, 85, 98, 102]
4.7 性能對比
為了評價DL效果届宠,準(zhǔn)確率(Accuracy,?ACC),召回率(Recall乘粒,R)豌注,平均正確率(Mean average precision,?mAP),交除并(Intersection over union,?IoU)谓厘,均方誤差(Root mean square error,?RMSE)幌羞,平均絕對誤差(Mean absolute error,MAE)竟稳,F(xiàn)1值等評價指標(biāo)被采用属桦,具體如表8所示熊痴。
表7 深度學(xué)習(xí)框架
框架主要功能參考
Caffe應(yīng)用在視頻、圖像處理方面[43, 50, 53, 57-59, 62, 65, 74, 77-80, 86, 93, 97, 100, 106]
Tensorflow應(yīng)用于各類機器學(xué)習(xí)算法的編程實現(xiàn)[45, 46, 51, 55, 63, 69, 70, 99, 101, 103, 105]
Keras應(yīng)用于將創(chuàng)意迅速轉(zhuǎn)換為結(jié)果的編程實現(xiàn)[66, 99]
微軟DL框架CNTK2.0主要應(yīng)用于作為語音識別的應(yīng)用上[75, 76]
Theano在Python中用于定義聂宾、優(yōu)化果善、求值數(shù)學(xué)表達(dá)式[102]
Chainer允許用簡單直觀的方式編寫出復(fù)雜的架構(gòu)[96]
表8 性能指標(biāo)
指標(biāo)定義說明參考
準(zhǔn)確率Acc=(TP+TN)/(TP+TN+FN+FP),TP和TN分別為將正類分類為正類和負(fù)類系谐,F(xiàn)N和FP分別為將負(fù)類劃分為負(fù)類和正類識別巾陕、分類或預(yù)測
的正確程度
[42-45,? 48,? 49, 52, 53, 56, 58-63, 65, 67-70, 72-74, 79-82, 84-86, 89, 91, 92, 96, 97, 103, 104, 106]
召回率R=TP/(TP+FN)將正類預(yù)測為正類與所有正類的比率[91, 97]
平均
正確率
mAP=1/C(∑i=1NAcc(k)ΔR(k)),C為類別數(shù)纪他,N為引用閾值的數(shù)量鄙煤,k為閾值,Acc(k)為準(zhǔn)確率茶袒,R(k)為召回率預(yù)測目標(biāo)位置及類別的準(zhǔn)確度[42, 44, 46, 47, 50, 51, 54, 57, 63, 71, 75, 77, 83, 90, 94, 101, 105]
交除并IoU=AO/AU梯刚,AO和AU分別為目標(biāo)識別與目標(biāo)標(biāo)注的交集與并集圖像中識別相應(yīng)
目標(biāo)的準(zhǔn)確度
[55]
均方根
誤差
RMSE=∑i=1nei2n,n為預(yù)測總次數(shù)薪寓,ei為第i個樣本預(yù)測值和觀測值的偏差預(yù)測值和觀測值之間殘差的樣本標(biāo)準(zhǔn)偏差[88, 99, 102]
平均絕
對誤差
MAE=∑i=1n|ei|n亡资,ei為第i個樣本預(yù)測的絕對誤差,n為樣本個數(shù)預(yù)測值和觀測值之間絕對誤差的平均值[99]
F1值F1=2×Acc×RAcc+R向叉,ACC和R分別是準(zhǔn)確率
和召回率
準(zhǔn)確率和召回率的調(diào)和平均數(shù)[65, 77, 78, 97]
大部分研究顯示基于DL所獲得的結(jié)果優(yōu)于與之比較的其它實現(xiàn)機制锥腻。DL技術(shù)在植物病蟲害檢測、植物識別和分類等領(lǐng)域中的應(yīng)用均表現(xiàn)出非常好的性能母谎,一般識別準(zhǔn)確率大于95%瘦黑、識別速度快、魯棒性強销睁、泛化性能好供璧。從識別準(zhǔn)確率和識別速度方面看,例如在植物葉片病害識別中[43]冻记,測試一張圖片的時間僅20.79 ms睡毒,且其對圖像空間位置變化的適應(yīng)性較好,在擴增圖片集上的測試準(zhǔn)確率高達(dá)99.56%冗栗;可能原因是所獲取的圖形中植物葉子形狀演顾、生病葉子具有較明顯特征,相對易于識別隅居。在運動中肉牛形體部位識別[105]钠至、龍眼葉綠素含量[87]、作物產(chǎn)量估計[93]胎源、番茄主要器官分類識別[75]棉钧、花卉種類識別[72]和林業(yè)圖像分類[73]等領(lǐng)域的應(yīng)用中準(zhǔn)確率和平均精度相對較低,一般準(zhǔn)確率和平均精度均低于85%涕蚤。這可能是由于使用的數(shù)據(jù)中包含有動態(tài)模糊的圖像宪卿、葉片采摘后葉綠素有少量變化等造成的诵。從魯棒性和泛化性能方面看,例如在基于自學(xué)習(xí)特征的林業(yè)圖像分類中[73]佑钾,底層局部特征是通過自動學(xué)習(xí)得到的西疤,泛化性更好;在水稻蟲害識別中[56]休溶,設(shè)計的10層的CNN模型代赁,可有效地提取圖像的特征,對水稻二化螟害蟲識別具有很好的抗干擾性和魯棒性兽掰。
5 討論與展望
通過上述綜述可進(jìn)一步總結(jié)DL在農(nóng)業(yè)中的應(yīng)用具有如下幾個方面的優(yōu)勢:首先芭碍,它能提高分類/檢測/識別等準(zhǔn)確率,例如禾进,在植物葉片病害識別[43]中僅經(jīng)過3次訓(xùn)練迭代豁跑,就能達(dá)到90%以上的識別準(zhǔn)確率;4.7節(jié)中所介紹的性能對比也顯示較常規(guī)算法其能得到更高的準(zhǔn)確率泻云。其次,DL具有很好的泛化性和通用性狐蜕。例如宠纯,在水稻蟲害識別[56]、果蔬果體病理圖像識別[91]中层释,可有效地提取圖像的特征婆瓜,對目標(biāo)識別具有很好的抗干擾性和魯棒性。此外贡羔,雖然它較傳統(tǒng)方法(如支持向量機廉白、隨機森林等)訓(xùn)練時間更長,但它的識別時間非常短乖寒。例如猴蹂,在黃瓜葉部病害識別[52]中,基于CNN訓(xùn)練時間為56h楣嘁,但識別只需2.7s磅轻。最后,可以通過運用圖像旋轉(zhuǎn)和剪裁進(jìn)行擴增數(shù)據(jù)集來訓(xùn)練模型逐虚,以節(jié)省在復(fù)雜環(huán)境中收集圖像信息的工作量聋溜,例如,在冬棗病害識別[61]叭爱、番茄主要器官分類識別[75]中撮躁,通過旋轉(zhuǎn)、顏色和亮度變化买雾、尺寸縮放等把曼,對數(shù)據(jù)集進(jìn)行擴增杨帽,DL仍能學(xué)習(xí)到較好的穩(wěn)定的分類特征,避免了傳統(tǒng)特征提取方法的不足祝迂。
分析發(fā)現(xiàn)DL在農(nóng)業(yè)中的應(yīng)用還存在如下幾個方面的不足:首先睦尽,DL需要大量數(shù)據(jù)集用于模型的訓(xùn)練、驗證和測試型雳,這就需要搭建相機或傳感器設(shè)備采集不同環(huán)境下的數(shù)據(jù)信息当凡。例如,在棉花病害識別[42]纠俭、大蒜鱗芽朝向識別[66]沿量、花卉種類識別[72]中,都需要采集大量的圖像冤荆。其次朴则,基于DL的大部分農(nóng)業(yè)問題為有監(jiān)督學(xué)習(xí),相應(yīng)樣本數(shù)據(jù)需要標(biāo)簽標(biāo)識钓简,一般需要較為專業(yè)的人員參與并對目標(biāo)類別進(jìn)行人工標(biāo)記乌妒。例如,在玉米田間雜草快速識別[81]外邓、草莓葉部白粉病病害識別[55]中撤蚊,均需要對所采集圖像進(jìn)行耗時的人工標(biāo)記。最后损话,雖然DL可以很好地學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中的特征侦啸,但是不能在數(shù)據(jù)集的表達(dá)能力之外進(jìn)行一般化。例如在菊花花型和品種識別[63]中丧枪,把菊花的識別作為一個封閉的系統(tǒng)光涂,需要進(jìn)一步研究該模型是否能遷移到其它花型和品種的識別。
整體上拧烦,DL在農(nóng)業(yè)中的應(yīng)用場景和研究對象仍有待進(jìn)一步擴展:
當(dāng)前研究成果主要集中于植物在形態(tài)學(xué)忘闻、病態(tài)學(xué)、生長環(huán)境信息學(xué)等方面的檢測屎篱、分類及預(yù)測服赎。而DL在動物的分類、識別和檢測中的研究成果相對較少交播。一個原因可能是動物的動態(tài)運動特征使得其應(yīng)用場景加復(fù)雜重虑,一般需要結(jié)合獸醫(yī)或動科專家參與分析對應(yīng)動物的生理和行為特征;同時也增大了圖像獲取秦士、預(yù)處理以及快速精準(zhǔn)識別的難度缺厉,一般需要采用視頻分析手段,這給DL的適時性和魯棒性提出了更高的要求。從媒體報道看提针,基于DL的豬命爬、牛臉部識別和行為特征分析是當(dāng)前應(yīng)用研究的一個熱點。隨著人們對動物健康狀況及肉制品質(zhì)量安全的重視辐脖,DL技術(shù)也將為動物生長環(huán)境的監(jiān)控及改善提供便利饲宛。
另外,近年來嗜价,智慧農(nóng)業(yè)正在我國興起艇抠,其在推動農(nóng)業(yè)生產(chǎn)領(lǐng)域的智能化、經(jīng)營領(lǐng)域的差異化以及服務(wù)領(lǐng)域的全方位信息化過程中產(chǎn)生了大量的圖片和數(shù)據(jù)久锥,如何融合并綜合利用這些數(shù)據(jù)還面臨著較大挑戰(zhàn)家淤,DL在這方面的應(yīng)用仍有待深入研究。
再者瑟由,有待進(jìn)一步將DL研究成果融入農(nóng)機裝備和裝置絮重,以真正落地相應(yīng)理論成果。例如基于DL定位水果的位置并識別水果的成熟度歹苦,以支持智能采摘和分類青伤;應(yīng)用DL技術(shù)對土壤含水率、大氣溫濕度殴瘦、CO2含量潮模、土壤酸堿度、肥料營養(yǎng)等作物生長的環(huán)境信息進(jìn)行挖掘分析痴施,通過云端服務(wù)實時提供給農(nóng)場管理者以輔助其精準(zhǔn)決策。
就理論方法而言究流,在如下三個方面仍有待深入研究辣吃。一個是專家經(jīng)驗和DL算法有待進(jìn)一步融合,比如將手工制作的特征與使用各種技術(shù)自動提取的特征結(jié)合在一起芬探,以提高整體性能神得。另一個是未來還可能利用時間維度進(jìn)行更高的特征分類或預(yù)測,以適應(yīng)模型的終身學(xué)習(xí)偷仿;例如可以根據(jù)先前連續(xù)觀察到的植物或動物的生長情況哩簿,動態(tài)預(yù)測它們的產(chǎn)量、評估它們的需水量或避免疾病的發(fā)生等酝静。最后节榜,算法的執(zhí)行速度有待提高,以滿足實時性要求别智,比如視頻識別宗苍、應(yīng)用于除草機和水果采摘裝置的圖像識別算法對適時性都具有非常高的要求。
參考文獻(xiàn)
? 本文來源于 中國知網(wǎng)免費入口 http://www.zhimeng.org