這是一節(jié)導論課用來給不懂計算機視覺的人介紹圖像分類問題熬荆,還有數(shù)據(jù)驅(qū)動的方法钞螟,內(nèi)容的目錄在下面
圖像分類
動機
在這個部分我們將介紹圖像分類問題兔甘,指定一個輸入圖像與之對應的固定類標簽,這是計算機視覺里的一個核心問題鳞滨,它有很多的不同的實際應用洞焙,盡管它非常簡單,而且,我們將要看到的課程澡匪,很多看起來不同的計算機視覺的任務(例如目標檢測熔任,分割)都能簡化成圖像分類。
例子
舉個例子唁情,在圖像分類模型中疑苔,一個圖像可以指定四個可能的標簽(貓, 狗甸鸟, 帽子惦费, 杯子)。在下面的顯示的圖片抢韭,圖片被表示為3緯的大數(shù)組數(shù)字薪贫,在這個例子中,這個貓圖有248像素寬刻恭,400像素高瞧省,有三種顏色通道,紅綠藍也可以簡寫為RGB鳍贾,因此鞍匾,這個圖片由248*400*3個數(shù)組成,總共297600個數(shù)字贾漏,每一個數(shù)字都是一個整數(shù)候学,從0(黑)到255(白)。我們的任務是把1/4百萬個數(shù)轉(zhuǎn)變成一個標簽纵散,就像“貓”
挑戰(zhàn)
盡管識別視覺概念(像一只貓)這樣的人物對于人來說相對比較容易執(zhí)行濒蒋,但是從計算機算法的方面來說涉及了很大的挑戰(zhàn)。我們展示一個(不完全的)列表挑戰(zhàn)把兔。注意圖像的展示作為一個3D數(shù)組高亮值:
視覺變化:一個例子就是目標隨著照相機的角度能被定位在很多方式沪伙。
比例變化:視覺類經(jīng)常能展示變化在它們大小上(現(xiàn)實世界中的大小,不僅僅是圖像中的范圍)
變形:
封閉:
光照條件:
背景雜亂:
類的變化:
一個好的圖像分類模型
數(shù)據(jù)驅(qū)動的方法:給它很多數(shù)據(jù)县好,讓它自己學
照片分類途徑:
輸入:
學習:
評估:
Nearest Neighbor Classifier(最近鄰分類器)
圖像分類器數(shù)據(jù)集:CIFAR-10
L1 distance:? d1(I1, I2) = Σp |Ip1-Ip2|? ?
距離的選擇 the choice of distance
L1 vs L2?
K近鄰分類器
K近鄰思想特別簡單:我們來找離它最近的K個點來代替一個點围橡,然后投票
在驗證集上調(diào)超參
測試機不能隨便用
Evaluate on the test set only a single time, at the very end.
Split your training set into training set and a validation set. Use validation set to tune all hyperparameters. At the end run a single time on the test set and report performance.
交叉驗證?Cross-validation
大約最近鄰算法?Approximate Nearest Neighbor?(ANN)
總結(jié)
1 介紹圖片分類
2 介紹最近鄰算法
3 驗證集
4 交叉驗證
4 評估
5 最近鄰算法的缺點
總結(jié):在練習中應用KNN
建議 1 預處理數(shù)據(jù)?