試想像一下,很多游客同時在不同角度拍攝Eiffel Tower(埃菲爾鐵塔),該如何用數(shù)學的方法來描述這一過程呢审孽?首先要解決的問題就是定位术羔,或者說坐標選定的問題奢入,埃菲爾鐵塔只有一座尔破,如果按經(jīng)肄梨、緯度來刻畫键科,它的坐標是唯一確定的闻丑,但游客顯然不關系這一點,他(她)只按自己的喜好選擇角度和位置勋颖,因此嗦嗡,物體(景物)有物體的坐標系統(tǒng),相機有相機的坐標系統(tǒng)饭玲,即便同一個相機侥祭,當調整參數(shù)時,在同樣的位置茄厘、相同的角度矮冬,也可能得到不同的圖像。為了統(tǒng)一描述次哈,有必要引入世界坐標(或物體坐標)胎署、相機坐標和像平面坐標。
世界坐標用UVW記窑滞。
image
相機坐標用XYZ記硝拧。中學物理告訴我們,物體與像是倒的關系葛假,但作為數(shù)學分析障陶,我們采用虛像。像平面用xoy記聊训。
image
而數(shù)字圖像用(u,v)來表示抱究,不弄混淆像平面和數(shù)字圖像這兩個概念,同一個像通過平移带斑、拉伸等鼓寺,可以得到不同的數(shù)學圖像(u,v)勋拟。
image
總體來看,就是
image
image
我們需要用數(shù)學的語言來描述這一過程妈候。先看中間部分敢靡。
image
紅框標注的部分是3D物體到2D像平面的透視投影(如果不明白透視投影的概念,需要補一下高等幾何)
image
image
顯然苦银,OP上的任一點的像都是p(x,y)啸胧,為了描述這一關系,需要引入齊次坐標幔虏。
By convention, we specify that given (x’,y’,z’) we can recover the 2D point (x,y) as
x=\frac{x'}{z'} y=\frac{y'}{z'}
Note: (x,y) = (x,y,1) = (2x, 2y, 2) = (k x, ky, k)
關于齊次坐標纺念,更詳細的介紹可參考高等幾何。
上述透視投影的過程可以描述為
image
正如開頭所言想括,不同游客會選擇不同的位置和角度拍攝同一物體陷谱,因此,物體對于相機的關系各不相同瑟蜈,這就是物體到相機坐標變換的問題烟逊。
image
上述紅框部分描述的是從物體的坐標(稱為世界坐標)到相機坐標變換的過程,它是一種剛體運動铺根,可以用平移宪躯、旋轉來描述。
image
上圖表示的是從世界坐標變換到相機坐標:Pc=R(Pw?C)
夷都,寫成矩陣形式
image
平移是容易理解的,我們先討論更簡單的情形予颤,即假設世界坐標系和相機坐標系的原點重合囤官,則變換只剩下旋轉了。
image
旋轉矩陣的元素也很容易確定蛤虐。試想(U,V,W)=(1,0,0)党饮,而它在相機坐標系中的坐標是(X,Y,Z)=(a,b,c)(同一物理點的不同坐標)則有:
image
因此有:
image
由于該旋轉是剛體運動,因此它是正交變換驳庭,滿足R?1=RT
刑顺,所以有:
image
不難得出:
image
看一個例子:
image
由于物體的坐標到相機坐標的變換,相對于相機內部參數(shù)而言屬于外部參數(shù)(External Parameters)饲常,往往寫作R和T蹲堂,即
image
總結
image
本小節(jié)講述了如何將3D世界坐標系中的點變換到相機坐標系中,然后經(jīng)透視投影贝淤,變成2D像平面上的點(x,y)柒竞。