有三個(gè)參數(shù)可以用來(lái)控制airflow運(yùn)行的并行度
- parallelism :這是用來(lái)控制每個(gè)airflow worker 可以同時(shí)運(yùn)行多少個(gè)task實(shí)例袁梗。這是airflow集群的全局變量。在airflow.cfg里面配置
- concurrency :這個(gè)用來(lái)控制 每個(gè)dag運(yùn)行過(guò)程中最大可同時(shí)運(yùn)行的task實(shí)例數(shù)捷雕。如果你沒(méi)有設(shè)置這個(gè)值的話,scheduler 會(huì)從airflow.cfg里面讀取默認(rèn)值 dag_concurrency
- max_active_runs : 這個(gè)是用來(lái)控制在同一時(shí)間可以運(yùn)行的最多的dag runs 數(shù)量燎斩。這里需要解釋一下dag runs 等缀,比如你的dag設(shè)置的每天運(yùn)行时迫,那么在天的時(shí)間段內(nèi)運(yùn)行某個(gè)dag就算是一個(gè)dag runs 。按道理每天只會(huì)執(zhí)行一次惫搏,但是保不齊具温,你前天和大前天的dag都沒(méi)運(yùn)行,那么就需要補(bǔ)跑晶府,或者你在某一次定時(shí)dag觸發(fā)了之后桂躏,又手動(dòng)觸發(fā)了,那么就存在川陆,同一個(gè)時(shí)間點(diǎn)有多個(gè)dag runs 剂习。這個(gè)參數(shù)就是控制這個(gè)最大的dag runs