https://developer.samsung.com/game/gpu-framebuffer
render需要大量的memory bandwidth,他的空間和功率開銷很大贮泞。所以移動(dòng)設(shè)備會(huì)使用tile-based rending挥萌。
Immediate mode rasterizers
傳統(tǒng)的graphics API接口是按順序submit triangles,也就是GPU依次render每個(gè)triangle,所以rasterization是這樣的:
如圖,triangles被sumitted時(shí)立即被hw處理,也就是immediate-mode renderer普碎,IMR。
Memory use in IMR
IMR很耗memory bandwidth录平,即使是對framebuffer pixels和depth values的很小的cache麻车,在光柵化時(shí)都會(huì)transfer大量memory。IMR下的內(nèi)存訪問順序不可預(yù)知斗这,由submit triangles的方式?jīng)Q定动猬。
如圖,render image上方顯示了4個(gè)連續(xù)image memory的cache lines表箭,cache line是一個(gè)小矩形赁咙,表示cache line對應(yīng)的pixel在哪里fall in到fambuffer:
- 紅色代表dirtry cache lines,已經(jīng)被寫入免钻,
- 綠色代表 clean cache lines彼水,仍然match memory,
- 亮色代表最近已被訪問
dirty cache lines相對應(yīng)的frambuffer pixels 顯示為粉色(framebuffer)和白色(在depth buffer里):
dirty的地方還沒有畫好极舔,全變綠色就畫好了凤覆。
這個(gè)動(dòng)圖要表達(dá)的是,每個(gè)cache line需要重新做好幾次拆魏,因?yàn)槊啃卸家嫸鄠€(gè)三角形(很多個(gè)spike尖角)盯桦。
Tiled memory
節(jié)省帶寬的第一步是慈俯,把每個(gè)cache line當(dāng)做是覆蓋內(nèi)存的two-dimensional rectangular,也就是tile拥峦。因?yàn)榭臻g接近的triangles一般submitted的時(shí)間也接近贴膘。所以這樣對cache area分組會(huì)提高cache hits命中率。
大小相同的linear cache與square cache略号,square cache發(fā)生的render更多刑峡,transfers to memory的頻率更小,從而降低的帶寬玄柠。同樣的技術(shù)也用在texture storage突梦,因?yàn)閠exture的讀取也具有引用的空間局部性(spatial locality of reference)
這里說的很簡單,實(shí)際的硬件會(huì)在pixels 和 memory之間做更復(fù)雜的映射随闪,來提高locality of reference阳似,引用的局部性骚勘。
Rasterizing within tiles
實(shí)際場景铐伴,framebuffer會(huì)被cached tiles更大。
一個(gè)問題就是如果簡單的top-to-bottom order來畫俏讹,那一個(gè)很大的triangle可能會(huì)thrash破壞cache当宴。
因?yàn)槠聊坏拿總€(gè)horizontal line水平線可能覆蓋了比 fit in cache 更多的tiles,
所以需要改變triangle內(nèi)pixels的rasterized 順序:先畫一個(gè)tile里的triangle覆蓋的所有pixels泽疆,再移動(dòng)到下一個(gè)tile户矢。
這里的意思是,相比于cache殉疼,framebuffer里面一行含有更多的tile梯浪,
未完