在學習深度學習的過程中杭隙,經(jīng)常彈出不同的算法名稱,同樣是做目標檢測的因妙,每篇論文給出了不同的方式痰憎,這些算法之間到底有什么區(qū)別票髓?目標檢測算法有哪些?
圖片分類
給一張圖片铣耘,預測這張圖片中的對象是什么洽沟,就是圖片分類。當我們創(chuàng)建了一個狗的分類器蜗细,拿一張狗的照片裆操,然后預測照片的分類:
如果當狗和貓都出現(xiàn)在照片中呢?
我們的模型會預測出什么結(jié)果鳄乏?
我們可以訓練一個多標簽的分類器跷车,可以同時預測貓和狗的分類。但是我們?nèi)匀徊恢镭埡凸返奈恢迷谀睦铩?/p>
預測對象的位置橱野,同時預測對象的種類就叫做目標檢測朽缴。需要幾個關鍵信息:
- 對象種類
- 包含對象邊界的左上角x坐標
- 包含對象邊界的左上角y坐標
- 對象的寬度
- 對象的高度
目標檢測被定義為一種分類問題,我們可以從任意位置,在輸入圖片中選取固定大小的窗口水援,然后把這些圖片區(qū)域交給分類器進行處理密强。
每一個窗口中都可以預測到對象的種類,但是我們?nèi)绾螞Q定對象的大小是多少呢蜗元?包含對象的窗口大小為多少才是合適的或渤?
我們可以看到對象的大小在圖片中是有區(qū)別的,如何解決圖片大小不一致的問題呢奕扣?通過縮放圖片形成一種圖片金字塔的方式薪鹦。
通過多種不同的倍數(shù),縮放圖片惯豆,然后統(tǒng)計完全包含對象大小的窗口池磁。
Idea is that we resize the image at multiple scales and we count on the fact that our chosen window size will completely contain the object in one of these resized images
目標檢測
- HOG (Histogram of oriented gradient) 方向梯度直方圖是在計算機視覺和圖像處理中被廣泛使用的一種算法,在2005年被提出楷兽。
Region-based Convolutional Neural Networks(R-CNN) ==> Spatial Pyramid Pooling(SPP-net) ==> Fast R-CNN ==> Faster R-CNN
- YOLO(You only Look Once):參考https://zhuanlan.zhihu.com/p/32525231
- Single Shot Detector(SSD):參考https://blog.csdn.net/zj15939317693/article/details/80596870
最后
當前對深度學習相關理論理解的還不夠透徹地熄,后面針對使用到的算法再深入學習每種算法的細節(jié)內(nèi)容
參考
[Zero to Hero: Guide to Object Detection using Deep Learning: Faster R-CNN,YOLO,SSD)(https://cv-tricks.com/object-detection/faster-r-cnn-yolo-ssd/)