前面的話
elastic job是當(dāng)當(dāng)開源的一個分布式調(diào)度系統(tǒng)□纬担基于quartz實現(xiàn)的棘利。這里只分析了lite類型的job,主要功能如下:
1朽缴、分布式調(diào)度協(xié)調(diào)
2善玫、彈性擴(kuò)容縮容
3、失效轉(zhuǎn)移
4密强、錯過執(zhí)行作業(yè)重觸發(fā)
5茅郎、作業(yè)分片一致性,保證同一分片在分布式環(huán)境中僅一個執(zhí)行實例
6或渤、自診斷并修復(fù)分布式不穩(wěn)定造成的問題
7系冗、支持并行調(diào)度
8、支持作業(yè)生命周期操作
9薪鹦、豐富的作業(yè)類型
10掌敬、Spring整合以及命名空間提供
11、運維平臺
elastic job 不能滿足的場景有:
1池磁、由于elastic-job只用了quartz的cronTrigger奔害,所以就不支持quartz的simpleTrigger,即執(zhí)行指定次數(shù)的任務(wù)地熄。
2华临、elastic-job,job與調(diào)度器是1:1的關(guān)系端考,當(dāng)任務(wù)過多時雅潭,會起很多線程揭厚,這是一個隱患。啟動時寻馏,會啟一個quartz的調(diào)度線程棋弥,一個quartz的工作線程核偿,和elastic-job自己啟的cpuCore*2的工作線程诚欠。任務(wù)數(shù)與線程數(shù)至少是3倍的關(guān)系
3、misfired策略單一漾岳。當(dāng)任務(wù)集群全部宕機(jī)重啟時轰绵,不能重新執(zhí)行一次任務(wù)。這個功能在quartz 使用jobsotresupport策略的時候有尼荆。
4左腔、當(dāng)任務(wù)過多時,在運維平臺上查詢?nèi)蝿?wù)很慢捅儒。主要是需要遍歷zk的節(jié)點液样。
一個例子進(jìn)入elastic-job的源碼走讀
這里例子主要是通過spring方式注冊和啟動任務(wù)攀圈。
<!--配置作業(yè)注冊中心 -->
<reg:zookeeper id="regCenter" server-lists="192.168.102.45:2181" namespace="test-dd-jobs" base-sleep-time-milliseconds="1000" max-sleep-time-milliseconds="3000" max-retries="3" />
<!-- 配置作業(yè)-->
<job:simple id="foreOffElasticJob" class="com.test.elastic.job.MyElasticJob" registry-center-ref="regCenter" cron="0/10 * * * * ?" sharding-total-count="3" sharding-item-parameters="0=A,1=B,2=C" />
其中任務(wù)的執(zhí)行邏輯代碼:
public class MyElasticJob implements SimpleJob {
@Override
public void execute(ShardingContext shardingContext) {
System.out.println(shardingContext.getShardingItem()+"=========start");
try {
System.out.println(shardingContext);
Thread.sleep(5000l);
} catch (InterruptedException e) {
e.printStackTrace();
}
System.out.println(shardingContext.getShardingItem()+"=========end");
}
}
自己的業(yè)務(wù)邏輯需要實現(xiàn)elastic-job提供的接口于宙。
任務(wù)注冊過程
elastic-job通過自定義spring標(biāo)簽來進(jìn)行注冊中心的定義與任務(wù)的配置。
spring標(biāo)簽定義一瞥
reg標(biāo)簽的xsd定義里可以看到reg的屬性有:
- server-lists :zk主機(jī)列表唐断。ip1:port1,ip2:port2
- namespace : 任務(wù)根目錄
- base-sleep-time-milliseconds :等待重試的間隔時間的初始值
- max-sleep-time-milliseconds :等待重試的間隔時間的最大值
- max-retries :最大重試次數(shù)
- session-timeout-milliseconds :會話超時時間
- connection-timeout-milliseconds:連接超時時間
- digest : 連接Zookeeper的權(quán)限令牌
標(biāo)簽解析類com.dangdang.ddframe.job.lite.spring.reg.handler.RegNamespaceHandler
.主要是初始化zk連接麸祷。具體的類為ZookeeperRegistryCenter
job 標(biāo)簽有三種澎怒,分為simple,script和dataflow阶牍,分別代表簡單任務(wù)喷面,腳本任務(wù)和數(shù)據(jù)流任務(wù)。其中simple類型的任務(wù)跟我們平時見到的任務(wù)一樣走孽,與quartz的cron任務(wù)類似惧辈。script類型的任務(wù),業(yè)務(wù)處理邏輯是用一些腳本語言實現(xiàn)的磕瓷,通過調(diào)用Apache的DefaultExecutor().execute方法來實現(xiàn)咬像。dataflow類型的任務(wù),主要是提供了兩個接口供業(yè)務(wù)實現(xiàn)生宛,一個是數(shù)據(jù)獲取接口县昂,一個是數(shù)據(jù)處理接口。獲取數(shù)據(jù)的時候陷舅,會根據(jù)streamingProcess的配置來決定是流式處理還是非流式處理倒彰。(流式處理含義是,一次任務(wù)觸發(fā)莱睁,會一直獲取數(shù)據(jù)待讳,知道獲取的數(shù)據(jù)為空本次任務(wù)才算執(zhí)行完成芒澜。非流式表示一次任務(wù)只獲取一次數(shù)據(jù))
job標(biāo)簽的屬性有很多,這里就列出主要的屬性: - listener创淡、distributed-listener :定義job的監(jiān)聽痴晦。用戶在任務(wù)執(zhí)行前后做額外的處理。
- class : 任務(wù)處理邏輯的全路徑琳彩。
- job-ref :任務(wù)的關(guān)聯(lián)beanid誊酌,優(yōu)先級大于class里配置的類路徑。
- registry-center-ref : 注冊中心的beanid露乏。
- cron : cron表達(dá)式碧浊。
- sharding-total-count : 總的分片數(shù)。
- sharding-item-parameters : 分片序列號和分片參數(shù)瘟仿,用
=
連接箱锐,多個分片之間用,
分割劳较。 - job-parameter : 作業(yè)參數(shù)
- max-time-diff-seconds: 容忍本機(jī)與注冊中心時間的誤差秒數(shù)驹止。
- failover : 是否打開失效轉(zhuǎn)移功能。默認(rèn)false
- misfire:是否開啟misfire 观蜗。默認(rèn)true
- job-sharding-strategy-class : 作業(yè)分片類全路徑
- disabled : 禁用作業(yè)臊恋,默認(rèn)false
- overwrite : 啟動時是否更新作業(yè),默認(rèn)false
- executor-service-handler : 作業(yè)處理的線程池類嫂便,默認(rèn)
com.dangdang.ddframe.job.executor.handler.impl.DefaultExecutorServiceHandler
- job-exception-handler :異常處理類捞镰。默認(rèn)
com.dangdang.ddframe.job.executor.handler.impl.DefaultJobExceptionHandler
- event-trace-rdb-data-source : 作業(yè)事件追蹤的數(shù)據(jù)源。
若是dataflow類型任務(wù)毙替,還有 - streaming-process : 是否流式處理數(shù)據(jù)岸售。默認(rèn) false
若是script類型任務(wù),有 - script-command-line : 執(zhí)行腳本的全路徑及名稱厂画。
任務(wù)配置完成之后凸丸,通過spring的自定義標(biāo)簽解析,組裝袱院,獲得一個SpringJobScheduler類型的bean屎慢。調(diào)用init方法初始化。
public void init() {
//(1)持久化任務(wù)配置信息到zk的config節(jié)點下
LiteJobConfiguration liteJobConfigFromRegCenter = schedulerFacade.updateJobConfiguration(liteJobConfig);
//(2)設(shè)置分片總數(shù)
JobRegistry.getInstance().setCurrentShardingTotalCount(liteJobConfigFromRegCenter.getJobName(), liteJobConfigFromRegCenter.getTypeConfig().getCoreConfig().getShardingTotalCount());
// (3)初始化quartz的scheduler忽洛,組裝jobdetail
JobScheduleController jobScheduleController = new JobScheduleController(
createScheduler(), createJobDetail(liteJobConfigFromRegCenter.getTypeConfig().getJobClass()), liteJobConfigFromRegCenter.getJobName());
//(4)將任務(wù)放到內(nèi)存里腻惠,并起zk監(jiān)聽,監(jiān)聽節(jié)點/jobname
JobRegistry.getInstance().registerJob(liteJobConfigFromRegCenter.getJobName(), jobScheduleController, regCenter);
//(5)處理作業(yè)的啟動信息欲虚。啟動前準(zhǔn)備工作集灌。
schedulerFacade.registerStartUpInfo(!liteJobConfigFromRegCenter.isDisabled());
//(6)真正的啟動調(diào)度器去定時的調(diào)度任務(wù)【主要是quartz來做】
jobScheduleController.scheduleJob(liteJobConfigFromRegCenter.getTypeConfig().getCoreConfig().getCron());
}
下面主要來看看第(5)步的處理,其他的處理都比較簡單复哆。
public void registerStartUpInfo(final boolean enabled) {
// 啟動所有監(jiān)聽欣喧。
listenerManager.startAllListeners();
//選主 /jobname/leader/election/instance/instanceid 臨時節(jié)點
leaderService.electLeader();
// 往zk上注冊節(jié)點ip信息腌零,持久化節(jié)點/jobname/servers/ip
serverService.persistOnline(enabled);
// 注冊實例信息,臨時節(jié)點唆阿,/jobname/instance/instanceid[instanceid格式:ip@-@pid]
instanceService.persistOnline();
// 設(shè)置分片標(biāo)志節(jié)點益涧,持久化節(jié)點 /jobname/leader/sharding/necessary
shardingService.setReshardingFlag();
//初始化作業(yè)監(jiān)聽服務(wù)
monitorService.listen();
if (!reconcileService.isRunning()) {
reconcileService.startAsync();
}
}
很多邏輯其實都在各個listener里。監(jiān)聽zk各個節(jié)點的變化驯鳖,做不同的處理闲询。
public void startAllListeners() {
//主節(jié)點選舉監(jiān)聽管理器
electionListenerManager.start();
//分片監(jiān)聽管理器.
shardingListenerManager.start();
//失效轉(zhuǎn)移監(jiān)聽管理器
failoverListenerManager.start();
//冪等性監(jiān)聽管理器
monitorExecutionListenerManager.start();
//運行實例關(guān)閉監(jiān)聽管理器
shutdownListenerManager.start();
//作業(yè)觸發(fā)監(jiān)聽管理器
triggerListenerManager.start();
// 重調(diào)度監(jiān)聽管理器
rescheduleListenerManager.start();
//保證分布式任務(wù)全部開始和結(jié)束狀態(tài)監(jiān)聽管理器
guaranteeListenerManager.start();
//注冊連接狀態(tài)監(jiān)聽器
jobNodeStorage.addConnectionStateListener(regCenterConnectionStateListener);
}
下面分別走讀下每個管理器所做的事情。
主節(jié)點選舉過程
public void executeInLeader(final String latchNode, final LeaderExecutionCallback callback) {
try (LeaderLatch latch = new LeaderLatch(getClient(), jobNodePath.getFullPath(latchNode))) {
latch.start();
latch.await();
callback.execute();
//CHECKSTYLE:OFF
} catch (final Exception ex) {
//CHECKSTYLE:ON
handleException(ex);
}
}
利用zk的客戶端包curator的選主過程臼隔。只有選主成功了嘹裂,才執(zhí)行callback.execute方法妄壶。主要是在zk上創(chuàng)建臨時節(jié)點/jobname/leader/election/instance,值為主節(jié)點的instance id摔握。
ElectionListenerManager中起了兩個監(jiān)聽,其實這里是有點小問題的丁寄。
@Override
public void start() {
addDataListener(new LeaderElectionJobListener());
addDataListener(new LeaderAbdicationJobListener());
}
addDataListener(new LeaderElectionJobListener());
監(jiān)聽不是太有必要氨淌。這個主要是監(jiān)聽臨時節(jié)點是否被刪除,若被刪除了伊磺,則重新選舉節(jié)點盛正。事實上,
(1) latch.start();
(2)latch.await();
(3)callback.execute();
這段代碼里就包含了上述功能屑埋。(1)中表示開始選舉主節(jié)點豪筝。(2)等待選舉成功,這里是一個while死循環(huán)摘能,一直在看當(dāng)前線程是不是主節(jié)點续崖,如果不是,繼續(xù)循環(huán)团搞,若果是严望,則執(zhí)行execute,在zk上建立主節(jié)點選舉信息逻恐。當(dāng)主節(jié)點掛掉之后像吻,zk上的相應(yīng)節(jié)點被刪除掉。那么就會重新選舉复隆,直到有實例獲取主節(jié)點權(quán)限拨匆,再次執(zhí)行callback.execute,建立主節(jié)點信息挽拂。
測試結(jié)果也是支持上面結(jié)論的惭每。
分片處理過程
shardingListenerManager這里的分片只是設(shè)置一個需要分片的標(biāo)志。這里監(jiān)聽zk上的任務(wù)配置的任務(wù)分片個數(shù)是否被修改轻局,同時監(jiān)聽作業(yè)實例是否有變化洪鸭,如果有變化样刷,則設(shè)置分片標(biāo)志位。標(biāo)志位zk上的路徑為:/jobname/leader/sharding/necessary.臨時節(jié)點览爵。
真正進(jìn)行任務(wù)分片是在任務(wù)調(diào)度過程中置鼻。真正執(zhí)行前,獲取分片上下文的時候進(jìn)行的蜓竹。代碼如下:
在執(zhí)行AbstractElasticJobExecutor的execute方法的時候有如下語句ShardingContexts shardingContexts = jobFacade.getShardingContexts();
.
@Override
public ShardingContexts getShardingContexts() {
boolean isFailover = configService.load(true).isFailover();
if (isFailover) {
List<Integer> failoverShardingItems = failoverService.getLocalFailoverItems();
if (!failoverShardingItems.isEmpty()) {
return executionContextService.getJobShardingContext(failoverShardingItems);
}
}
/////這里就是進(jìn)行分片的邏輯
shardingService.shardingIfNecessary();
List<Integer> shardingItems = shardingService.getLocalShardingItems();
if (isFailover) {
shardingItems.removeAll(failoverService.getLocalTakeOffItems());
}
shardingItems.removeAll(executionService.getDisabledItems(shardingItems));
return executionContextService.getJobShardingContext(shardingItems);
}
public void shardingIfNecessary() {
List<JobInstance> availableJobInstances = instanceService.getAvailableJobInstances();
if (!isNeedSharding() || availableJobInstances.isEmpty()) {
return;
}
//若不是主節(jié)點箕母,則等待分片完成
if (!leaderService.isLeaderUntilBlock()) {
blockUntilShardingCompleted();
return;
}
//先等待其他的任務(wù)完成。
waitingOtherJobCompleted();
LiteJobConfiguration liteJobConfig = configService.load(false);
int shardingTotalCount = liteJobConfig.getTypeConfig().getCoreConfig().getShardingTotalCount();
log.debug("Job '{}' sharding begin.", jobName);
//建立臨時節(jié)點/jobname/leader/sharding/processing俱济,標(biāo)志正在進(jìn)行分片
jobNodeStorage.fillEphemeralJobNode(ShardingNode.PROCESSING, "");
//建立分片信息節(jié)點 /jobname/sharding/分片ID嘶是,持久化節(jié)點
resetShardingInfo(shardingTotalCount);
//獲取分片策略
JobShardingStrategy jobShardingStrategy = JobShardingStrategyFactory.getStrategy(liteJobConfig.getJobShardingStrategyClass());
//開始分片。zk事務(wù)蛛碌。PersistShardingInfoTransactionExecutionCallback將分片的信息持久化到zk上聂喇。zk上的路徑為/jobname/sharding/item/instanceid.然后在這個事務(wù)里刪除processing和necessary節(jié)點。
jobNodeStorage.executeInTransaction(new PersistShardingInfoTransactionExecutionCallback(jobShardingStrategy.sharding(availableJobInstances, jobName, shardingTotalCount)));
log.debug("Job '{}' sharding complete.", jobName);
}
執(zhí)行完上面的代碼蔚携,任務(wù)分片完成希太。就可以進(jìn)行調(diào)度了。
失效轉(zhuǎn)移監(jiān)聽管理器
這里就直接引用[芋道源碼].這里講的很清楚酝蜒。
上面主要的功能就在這些listener里誊辉。
任務(wù)調(diào)度
任務(wù)主要由quartz來完成,下面就來看看實現(xiàn)quartz的job接口的類是如何實現(xiàn)的亡脑。
lite作業(yè)調(diào)度代碼
public final class LiteJob implements Job {
@Setter
private ElasticJob elasticJob;
@Setter
private JobFacade jobFacade;
@Override
public void execute(final JobExecutionContext context) throws JobExecutionException {
JobExecutorFactory.getJobExecutor(elasticJob, jobFacade).execute();
}
}
真正的執(zhí)行器是AbstractElasticJobExecutor
.下面看下這個的核心代碼實現(xiàn):
public final void execute() {
try {
jobFacade.checkJobExecutionEnvironment();
} catch (final JobExecutionEnvironmentException cause) {
jobExceptionHandler.handleException(jobName, cause);
}
// 獲取分片信息堕澄,這里會真正的進(jìn)行數(shù)據(jù)分片
ShardingContexts shardingContexts = jobFacade.getShardingContexts();
if (shardingContexts.isAllowSendJobEvent()) {
jobFacade.postJobStatusTraceEvent(shardingContexts.getTaskId(), State.TASK_STAGING, String.format("Job '%s' execute begin.", jobName));
}
//若當(dāng)前有分片的執(zhí)行狀態(tài)有running,則置 本次為misfired狀態(tài)霉咨。在zk上添加/jobname/sharding/item/misfire,持久化節(jié)點
if (jobFacade.misfireIfRunning(shardingContexts.getShardingItemParameters().keySet())) {
if (shardingContexts.isAllowSendJobEvent()) {
jobFacade.postJobStatusTraceEvent(shardingContexts.getTaskId(), State.TASK_FINISHED, String.format(
"Previous job '%s' - shardingItems '%s' is still running, misfired job will start after previous job completed.", jobName,
shardingContexts.getShardingItemParameters().keySet()));
}
return;
}
try {
jobFacade.beforeJobExecuted(shardingContexts);
//CHECKSTYLE:OFF
} catch (final Throwable cause) {
//CHECKSTYLE:ON
jobExceptionHandler.handleException(jobName, cause);
}
//執(zhí)行業(yè)務(wù)
execute(shardingContexts, JobExecutionEvent.ExecutionSource.NORMAL_TRIGGER);
//執(zhí)行misfired的任務(wù)
while (jobFacade.isExecuteMisfired(shardingContexts.getShardingItemParameters().keySet())) {
jobFacade.clearMisfire(shardingContexts.getShardingItemParameters().keySet());
execute(shardingContexts, JobExecutionEvent.ExecutionSource.MISFIRE);
}
// 如果有開啟失效轉(zhuǎn)移蛙紫,則執(zhí)行失效轉(zhuǎn)移的操作,取孤兒分片那邊去獲取任務(wù)進(jìn)行執(zhí)行躯护。
jobFacade.failoverIfNecessary();
try {
jobFacade.afterJobExecuted(shardingContexts);
//CHECKSTYLE:OFF
} catch (final Throwable cause) {
//CHECKSTYLE:ON
jobExceptionHandler.handleException(jobName, cause);
}
}
看這里的execute方法
private void execute(final ShardingContexts shardingContexts, final JobExecutionEvent.ExecutionSource executionSource) {
if (shardingContexts.getShardingItemParameters().isEmpty()) {
if (shardingContexts.isAllowSendJobEvent()) {
jobFacade.postJobStatusTraceEvent(shardingContexts.getTaskId(), State.TASK_FINISHED, String.format("Sharding item for job '%s' is empty.", jobName));
}
return;
}
jobFacade.registerJobBegin(shardingContexts);
String taskId = shardingContexts.getTaskId();
if (shardingContexts.isAllowSendJobEvent()) {
jobFacade.postJobStatusTraceEvent(taskId, State.TASK_RUNNING, "");
}
try {
process(shardingContexts, executionSource);
} finally {
// TODO 考慮增加作業(yè)失敗的狀態(tài)惊来,并且考慮如何處理作業(yè)失敗的整體回路
jobFacade.registerJobCompleted(shardingContexts);
if (itemErrorMessages.isEmpty()) {
if (shardingContexts.isAllowSendJobEvent()) {
jobFacade.postJobStatusTraceEvent(taskId, State.TASK_FINISHED, "");
}
} else {
if (shardingContexts.isAllowSendJobEvent()) {
jobFacade.postJobStatusTraceEvent(taskId, State.TASK_ERROR, itemErrorMessages.toString());
}
}
}
}
這里最主要的是process方法:
private void process(final ShardingContexts shardingContexts, final JobExecutionEvent.ExecutionSource executionSource) {
Collection<Integer> items = shardingContexts.getShardingItemParameters().keySet();
if (1 == items.size()) {
int item = shardingContexts.getShardingItemParameters().keySet().iterator().next();
JobExecutionEvent jobExecutionEvent = new JobExecutionEvent(shardingContexts.getTaskId(), jobName, executionSource, item);
process(shardingContexts, item, jobExecutionEvent);
return;
}
final CountDownLatch latch = new CountDownLatch(items.size());
for (final int each : items) {
final JobExecutionEvent jobExecutionEvent = new JobExecutionEvent(shardingContexts.getTaskId(), jobName, executionSource, each);
if (executorService.isShutdown()) {
return;
}
executorService.submit(new Runnable() {
@Override
public void run() {
try {
//這個就是真正的業(yè)務(wù)邏輯實現(xiàn)了。
process(shardingContexts, each, jobExecutionEvent);
} finally {
latch.countDown();
}
}
});
}
try {
latch.await();
} catch (final InterruptedException ex) {
Thread.currentThread().interrupt();
}
}
上面的方法里可以看出棺滞,同一個任務(wù)實例上的數(shù)據(jù)分片是同時完成的裁蚁,即,只有同一個實例上的分片都完成了才算該實例的任務(wù)調(diào)度完成继准。
寫在后面
通過上面分析枉证,可以看到該調(diào)度框架對任務(wù)少的循環(huán)任務(wù),同時對任務(wù)的安全性要求比較高的場景下使用移必。像電商的一些營銷推廣任務(wù)室谚,任務(wù)多,任務(wù)類型多,有大量的有限次數(shù)秒赤,且每種任務(wù)的misfired策略要求不同的任務(wù)不太合適猪瞬。同時也不太適合跨系統(tǒng),跨DC的任務(wù)的數(shù)據(jù)管理入篮。
這也是我們自己要重復(fù)造輪子的一個原因陈瘦。