荊棘中的舞蹈:OpenGL多線程同步方案
OpenGL由于狀態(tài)機這個桎梏,天然是適合單線程渲染的竭讳。由于狀態(tài)機中的狀態(tài)创葡、資源、內(nèi)存無法解決多線程中的競爭問題绢慢,在OpenGL中實現(xiàn)多線程一直是荊棘中跳舞灿渴,就算再小心翼翼也不能避免刺痛。
以下內(nèi)容為了方便胰舆,多線程渲染
和OpenGL多線程
是等價的逻杖,只不過這里做的不是多線程上屏渲染。
是否需要多線程
由上所述思瘟,要做OpenGL多線程是痛苦和收益并存的,引入多線程能有多少收益是你要第一個要問的問題闻伶。
按照我的經(jīng)驗滨攻,多線程渲染越往上層開始異步越好,這樣不僅入口簡單,查Bug也會更簡單光绕。這主要是因為OpenGL操蛋的Client/Server模式女嘲,在最底層查渲染異常的問題是極其痛苦的,而在上層的封裝信息多诞帐,提供的信息也多欣尼。
如果要對具體的OpenGL命令做異步,一般是這兩種情況:
- 有較多且集中的OpenGL的耗時操作停蕉。
- 有較多的離屏的FBO愕鼓,且在邏輯上彼此獨立。
在渲染層做優(yōu)化是精細活慧起,我建議是渲染層穩(wěn)定后才開始專攻優(yōu)化菇晃,它屬于90分到99分的臨門一腳。如果你的項目現(xiàn)在渲染模塊還不穩(wěn)定或上層代碼還有許多優(yōu)化空間蚓挤,也許你要重新想下優(yōu)化方向磺送。
OpenGL 多線程同步
OpenGL要想多線程渲染,要不就要完美同步各線程的的執(zhí)行灿意,也就是GPU上的命令執(zhí)行順序要正確估灿。要不就要使用double-buffering的方案來避免競爭,本文主要介紹如何同步缤剧。
基本概念
Client/Server
: 在OpenGL的設(shè)計模式是Client/Server馅袁,這里Client指CPU,Server指GPU鞭执。我們90%的時間是在CPU上寫邏輯司顿,而CPU操作的OpenGL對象都是Server返回的句柄,換句話說你在CPU只能拿到一個號碼兄纺,沒辦法知道在床上的是鳳姐還是志玲大溜。
CommandQueue
: 在CPU和GPU分別有各自的CommandQueue,當一個OpenGL命令在CPU執(zhí)行時估脆,會先添加到CPU的CommandQueue钦奋,在CPU切換到burst mode后,CPU CommandQueue中的命令被依次發(fā)送到GPU CommandQueue疙赠,GPU會在合適的時機執(zhí)行CommandQueue里的命令付材。
GLContext
: OpenGL的狀態(tài)機,保存有渲染管線用到的狀態(tài)和資源圃阳,OpenGL命令的宿主環(huán)境厌衔。GLContext
是和線程強相關(guān)的,這是因為在絕大部分驅(qū)動的設(shè)計中捍岳,都是一個線程一個CommandQueue富寿,而這個線程中的當前GLContext
中發(fā)生的命令才會被添加到CommandQueue睬隶。
GL fenceSync object
: OpenGL的一個信號量,當GPU執(zhí)行到它是會自動解鎖, sync對象不屬于狀態(tài)機页徐,所以可以跨context獲取苏潜。
Client Wait
: 卡主CPU等待信號量解鎖。
Server Wait
: 卡主GPU等待信號量解鎖变勇,CPU繼續(xù)執(zhí)行恤左。
OpenGL命令的執(zhí)行方式
絕大多數(shù)OpenGL命令在CPU上是異步執(zhí)行的,在GPU上是同步執(zhí)行的搀绣。這一切都得益于CommandQueue的存在飞袋,讓CPU可以更高效地完成命令發(fā)送,畢竟總線的資源是珍貴的豌熄,尤其在移動端的總線帶寬是非常小的(內(nèi)存64/128bit授嘀,顯存128/256bit)。
但這樣的代價是在渲染有問題時锣险,在CPU無法定位到真正的現(xiàn)場蹄皱,尤其是iOS GPU架構(gòu)基于TBR/TBDR的情況下,你無法知道GPU上到底是什么時候發(fā)生問題的芯肤。
OpenGL命令的狀態(tài)
一條GPU命令在CPU執(zhí)行后巷折,會有三個狀態(tài):
- 未發(fā)送
GPU命令在CPU執(zhí)行,會發(fā)送到當前CPU的CommanQueue崖咨,底層驅(qū)動會在合適的時機發(fā)送CPU CommandQueue中的命令到GPU CommandQueue锻拘。 - 發(fā)送未完成
命令在GPU的ComamndQueue中,但還沒有被GPU執(zhí)行击蹲。 - 完成
命令在GPU上執(zhí)行了署拟,并且不再當前渲染管線中。
硬件層面的指令執(zhí)行
OpenGL的三種同步方案
OpenGL中有三種可以實現(xiàn)同步的方案歌豺,glFinish
, glFlush
, glFenceSync
推穷。
-
glFinish
足夠粗暴,它讓當前線程的所有命令都在GPU執(zhí)行完成后才返回类咧。 -
glFlush
輕量些馒铃,它會讓當前線程的所有命令都發(fā)送后才返回,此時命令在GPU的CommandQueue上痕惋,一般切換上下文要flush一下確保執(zhí)行的命令順序萬無一失区宇,但是在TBR/TBDR架構(gòu)的上屏上下文中flush,會強行同步一次tile和FBO值戳,所以也要盡量少用议谷。 -
glFenceSync
最靈活且輕量,他會生成一個信號量堕虹,當GPU執(zhí)行到它是卧晓,信號量會解鎖叶洞,這樣就可以監(jiān)控GPU的運行狀態(tài)了≠餮拢可以選擇glClientWaitSync/glWaitSync
來實現(xiàn)同步。
如何選擇
如果要同步多線程中的GPU資源螟炫,比如紋理時波附,只用glFlush是不夠的,因為不能保證渲染命令在GPU被執(zhí)行昼钻,只用glFlush
會有黑屏或閃屏掸屡、Crash的問題,只能用glFinish/glFenceSync
然评。
glFinish
只適合不關(guān)心當前CPU和GPU執(zhí)行狀態(tài)的情況仅财,比如一次提交了很多命令需要清空CommandQueue時。這在調(diào)試某一條指令時非常有用碗淌,可以在這個指令前后各加一個glFinish
盏求,來確保GPU當前只在執(zhí)行這條指令,避免其他指令的干擾亿眠。
glFenceSync
可以監(jiān)控GPU的執(zhí)行狀態(tài)碎罚,可以用它實現(xiàn)關(guān)于GPU狀態(tài)的回調(diào)。實現(xiàn)同步的方式比較靈活纳像,可以選擇是卡CPU還是GPU荆烈。比如如果需要在CPU上使用渲染結(jié)果的話,需要glClientWaitSync
竟趾,如果只是為了同步執(zhí)行順序的話憔购,glWaitSync
就可以了。
不過要注意的是wait命令后面要加一個glFlush
, 以免產(chǎn)生死鎖(sync信號量還沒有發(fā)送岔帽,當前線程就鎖住了GPU玫鸟,導(dǎo)致GPU沒有機會解鎖)。
例子
// Main Queue
dispatch_async(backQueue, ^{
//back Queue draw something
//...
syncPtr = glFenceSync(GL_SYNC_GPU_COMMANDS_COMPLETE, 0);
glFlush();
});
glClientWaitSync(syncPtr, 0, 2 * NSEC_PER_SEC);// need result on client-side memory
// use the result of back Queue rendered
//...
寫在最后
同步的方案其實不難山卦,難的是怎么查關(guān)于多線程的渲染Bug鞋邑。所以一定要從頭理清項目里的渲染邏輯,從單線程小范圍開始慢慢多線程改造是一條比較平坦的路账蓉。