跨庫(kù)數(shù)據(jù)表的運(yùn)算

1.??? 簡(jiǎn)單合并(FROM)

???????所謂跨庫(kù)數(shù)據(jù)表柱彻,是指邏輯上同一張數(shù)據(jù)表被分別存儲(chǔ)在不同數(shù)據(jù)庫(kù)中。其原因有可能是因?yàn)閿?shù)據(jù)量太大,放在一個(gè)數(shù)據(jù)庫(kù)難以處理,也可能在業(yè)務(wù)上就需要將生產(chǎn)庫(kù)和歷史庫(kù)分開胶哲。而不同的數(shù)據(jù)庫(kù),可能只是部署在不同的機(jī)器上的同種數(shù)據(jù)庫(kù)潭辈,也可能是連類型都不同的數(shù)據(jù)庫(kù)系統(tǒng)鸯屿。

???????在面對(duì)跨庫(kù)數(shù)據(jù)表澈吨,特別是數(shù)據(jù)庫(kù)類型都不相同的情況時(shí),數(shù)據(jù)庫(kù)自帶的工具往往就力所不及了碾盟,一般都需要尋找能夠很好地支持多數(shù)據(jù)源類型的第三方工具棚辽,而集算器,可以說是其中的佼佼者了冰肴。下面屈藐,我們就針對(duì)幾種常見的跨庫(kù)混合運(yùn)算情況詳細(xì)討論一下:

???????跨庫(kù)運(yùn)算,簡(jiǎn)單粗暴的思路就是把散布在各個(gè)庫(kù)里的邏輯上相同的數(shù)據(jù)表合并成一個(gè)表熙尉,然后在這一個(gè)表上進(jìn)行運(yùn)算联逻。

???????例如,在兩個(gè)數(shù)據(jù)庫(kù) HSQL 和 MYSQL 中检痰,分別存儲(chǔ)了一張學(xué)生成績(jī)表包归,兩者各自保存了一部分學(xué)生信息,如下圖所示:

利用集算器铅歼,我們可以很容易地將這兩個(gè)結(jié)構(gòu)相同的表合并為一個(gè)表公壤,集算器的 SPL 腳本如下:?

???????A1、A2 和 B1椎椰、B2 分別讀取了兩個(gè)庫(kù)里的學(xué)生成績(jī)表厦幅,而 A3 用一種簡(jiǎn)單直觀的方式就把兩個(gè)表合并了。

???????這種方式實(shí)際上是把兩個(gè)表都讀入了內(nèi)存慨飘,分別生成了集算器的序表對(duì)象确憨,然后利用序表的運(yùn)算“|”完成了合并∪康模可能有的同學(xué)會(huì)問:如果我的數(shù)據(jù)量比較大休弃,無法全部讀入內(nèi)存怎么辦?沒關(guān)系圈膏,專為處理大數(shù)據(jù)而生的集算器塔猾,決不會(huì)被這么簡(jiǎn)單的小問題難住。我們可以使用游標(biāo)本辐,同樣可以實(shí)現(xiàn)表的快速拼接:

???????A2桥帆、B2 分別用游標(biāo)打開兩個(gè)庫(kù)里的學(xué)生成績(jī)表,A3 則使用 conjx() 函數(shù)將這兩個(gè)游標(biāo)合并慎皱,形成了一個(gè)新的可以同時(shí)訪問兩個(gè)表的游標(biāo)老虫。

???????對(duì)應(yīng)于 SQL,這種簡(jiǎn)單合并好比只是完成了 from 工作茫多,讓結(jié)構(gòu)相同的跨庫(kù)表的數(shù)據(jù)“縱向”拼接成了一個(gè)可以訪問的序表或者游標(biāo)祈匙,而實(shí)際運(yùn)算中,還會(huì)涉及過濾 (where/having)、分組聚合 (group+sum/count/avg/max/min)夺欲、連接 (join+on)跪帝、去重 (distinct)、排序 (order)些阅、取部分?jǐn)?shù)據(jù) (limit+offset)伞剑,等等操作,下面我們就將對(duì)這些運(yùn)算一一展開討論市埋。

???????當(dāng)然黎泣,我們?cè)谔幚磉@些運(yùn)算的需求時(shí),不能只是簡(jiǎn)單的實(shí)現(xiàn)功能缤谎,我們還需要考慮實(shí)現(xiàn)的效率和性能抒倚,因此原則上,我們會(huì)盡量利用數(shù)據(jù)庫(kù)的計(jì)算能力坷澡,而集算器主要負(fù)責(zé)混合運(yùn)算托呕。不過,有時(shí)也需要由集算器負(fù)責(zé)幾乎所有的運(yùn)算频敛,數(shù)據(jù)庫(kù)僅僅負(fù)責(zé)存儲(chǔ)數(shù)據(jù)项郊。


2.??? WHERE

???????where 過濾的本質(zhì)是通過比較計(jì)算,去除比較的結(jié)果是 false 的記錄斟赚,因此 where 只作用于一條記錄呆抑,不涉及記錄之間的運(yùn)算,也不需要考慮數(shù)據(jù)位于哪個(gè)數(shù)據(jù)庫(kù)汁展。比如,在前面的例子中厌殉,我們要統(tǒng)計(jì)出“一班”所有同學(xué)的“數(shù)學(xué)”成績(jī)食绿,單庫(kù)中的 SQL 是這樣的:

???????SELECT 學(xué)生 ID, 成績(jī) FROM 學(xué)生成績(jī)表 WHERE 科目 =’數(shù)學(xué)’ AND 班級(jí) =‘一班’

???????多庫(kù)時(shí),也只要將 where 子句直接寫在 SQL 中公罕,讓各個(gè)數(shù)據(jù)庫(kù)去并行處理過濾就可以了:

???????我們也可以讓集算器負(fù)責(zé)所有過濾運(yùn)算器紧,數(shù)據(jù)庫(kù)僅存儲(chǔ)數(shù)據(jù)。這時(shí)可以使用集算器的 select 函數(shù)(與 SQL 的 select 關(guān)鍵字不同)

???????數(shù)據(jù)量較大時(shí)楼眷,同樣也可以將序表換成游標(biāo)铲汪,使用 conjx 函數(shù)進(jìn)行連接:


3.??? ORDER BY 和 LIMIT OFFSET

???????order by 是在結(jié)果集產(chǎn)生后才進(jìn)行的處理。在上面的例子中罐柳,如果我們要按數(shù)學(xué)成績(jī)排序掌腰,對(duì)于單數(shù)據(jù)庫(kù),只需要加上 order by 子句:

???????SELECT 班級(jí), 學(xué)生 ID, 成績(jī) FROM 學(xué)生成績(jī)表 WHERE 科目 =’數(shù)學(xué)’ AND 班級(jí) =‘一班’ ORDER BY 成績(jī)

???????而對(duì)于多數(shù)據(jù)庫(kù)张吉,可以讓數(shù)據(jù)庫(kù)先分別排序齿梁,然后由集算器歸并有序數(shù)據(jù)。這樣可以最大的發(fā)揮數(shù)據(jù)庫(kù)與并行服務(wù)器的性能。

???????也可以倒序排序勺择,歸并時(shí)在排序字段前加“-”(merge 函數(shù)可以不加“-”创南,不過按標(biāo)準(zhǔn)寫法是加上的)

???????當(dāng)然也可以完全由集算器來排序:

???????由集算器實(shí)現(xiàn)倒序排序:

???????而對(duì)于大數(shù)據(jù)量,需要使用游標(biāo)及 mergex 來完成有序歸并:

???????limit 和 offset 的執(zhí)行又在 order 之后省核,例子中如果想取數(shù)學(xué)成績(jī)除了第一名之后的前十名(可以少于但不能多于)稿辙,單庫(kù)情況下 SQL 是這樣的:

???????SELECT 班級(jí), 學(xué)生 ID, 成績(jī) FROM 學(xué)生成績(jī)表 WHERE 科目 =’數(shù)學(xué)’ AND 班級(jí) =‘一班’ ORDER BY 成績(jī) DESC LIMIT 10 OFFSET 1

???????多數(shù)據(jù)庫(kù)時(shí),可以用集算器的 to 函數(shù)實(shí)現(xiàn) limit offset 的功能气忠,to(n+1,n+m) 等同于 limit m offset n

???????對(duì)于大數(shù)據(jù)量使用游標(biāo)的情況邻储,offset 功能可以使用集算器函數(shù) skip 實(shí)現(xiàn),而 limit 的功能則可以使用函數(shù) fetch 實(shí)現(xiàn)


4.??? 聚合運(yùn)算

???????我們來討論五種常見的聚合運(yùn)算:sum/count/avg/max/min笔刹。

?????????? sum 的基礎(chǔ)是加法芥备,根據(jù)加法結(jié)合律,各數(shù)據(jù)庫(kù)中內(nèi)部數(shù)據(jù)先分別求和舌菜,然后拼接成一張表后再求總和萌壳,與先拼接成一張表然后一起求和的結(jié)果,其實(shí)是一樣的日月。

?????????? count 的本質(zhì)袱瓮,是對(duì)每項(xiàng)非 null 數(shù)據(jù)計(jì) 1,null 數(shù)據(jù)計(jì) 0爱咬,然后進(jìn)行累加計(jì)算尺借。所以其本質(zhì)仍是加法運(yùn)算,與 sum 一樣符合加法結(jié)合律精拟。唯一不同的是對(duì)原始數(shù)據(jù)不是累加其本身的數(shù)值而是計(jì) 1(非 null)或計(jì) 0(為 null)燎斩。

?????????? avg 的本質(zhì),是當(dāng) count > 0 時(shí) avg = sum/count蜂绎,當(dāng) count = 0 時(shí) avg = null栅表。顯然 avg 不能像 sum 或 count 那樣先分別計(jì)算了。不過根據(jù)定義师枣,我們可以先算出 sum 和 count怪瓶,再通過 sum 和 count 計(jì)算出 avg。

?????????? max 和 min 的基礎(chǔ)都是比較運(yùn)算践美,而因?yàn)楸容^運(yùn)算具有傳遞性洗贰,因此所有數(shù)據(jù)庫(kù)的最值,可以通過比較各個(gè)數(shù)據(jù)庫(kù)的最值得到陨倡。

???????依舊是上面的例子敛滋,這次我們要求兩個(gè)班全體學(xué)生的數(shù)學(xué)總分、人數(shù)兴革、平均分矛缨、最高及最低分,對(duì)于單源數(shù)據(jù):

???????SELECT sum(成績(jī)) 總分?jǐn)?shù), count(成績(jī)) 考試人數(shù), avg(成績(jī)) 平均分, max(成績(jī)) 最高分, min(成績(jī)) 最低分 FROM 學(xué)生成績(jī)表 WHERE 科目 ='數(shù)學(xué)'

???????聚合運(yùn)算的結(jié)果集很小,只有一行箕昭,因此無論源數(shù)據(jù)量的大小灵妨,都可以使用游標(biāo),代碼如下:

???????事實(shí)上落竹,前面提到的 order by +limit offset 本質(zhì)上也可以看成是一種聚合運(yùn)算:top泌霍。從這個(gè)角度進(jìn)行優(yōu)化,可以獲得更高的計(jì)算效率述召。畢竟數(shù)據(jù)量大時(shí)朱转,全排序的成本很高,而且取前 N 個(gè)數(shù)據(jù)的操作也并不需要全排序积暖。當(dāng)然藤为,這個(gè)方法對(duì)于數(shù)據(jù)量小的情況也同樣適用。

???????具體來說夺刑,對(duì)于 order by F limit m offset n 的情況缅疟,只需先用 top(n+m, F, ~),再用 to(n+1,) 就行了遍愿。

???????我們?nèi)砸灾暗暮?order by+limit offset 的 SQL 語句為例:

???????SELECT 班級(jí), 學(xué)生 ID, 成績(jī) FROM 學(xué)生成績(jī)表 WHERE 科目 =’數(shù)學(xué)’ AND 班級(jí) =‘一班’ ORDER BY 成績(jī) DESC LIMIT 10 OFFSET 1

???????對(duì)于多數(shù)據(jù)庫(kù), 腳本如下存淫,其中倒序排序只需在排序字段前加“-”:


5.??? GROUP BY、DISTINCT 和 HAVING

???????A沼填、分組聚合運(yùn)算

???????對(duì)于 group by桅咆,因?yàn)樽罱K所得結(jié)果與樣本個(gè)體的輸入順序無關(guān),所以只要樣本的總體不變坞笙,最終結(jié)果也不會(huì)變岩饼。也就是說,只要在從分庫(kù)中提取數(shù)據(jù)和最終匯總?cè)繑?shù)據(jù)時(shí)薛夜,都預(yù)先進(jìn)行了分類運(yùn)算即可忌愚。

???????假設(shè)我們想分別求一、二班的數(shù)學(xué)總分却邓、人數(shù)、平均分院水、最高及最低分腊徙,單數(shù)據(jù)庫(kù)如下:

???????SELECT 班級(jí), sum(成績(jī)) 總分?jǐn)?shù), count(成績(jī)) 考試人數(shù), avg(成績(jī)) 平均分, max(成績(jī)) 最高分, min(成績(jī)) 最低分 FROM 學(xué)生成績(jī)表 WHERE 科目 ='數(shù)學(xué)' GROUP BY 班級(jí)

???????我們分三種情況討論:

???????第一,對(duì)于小數(shù)據(jù)檬某,聚合運(yùn)算的結(jié)果集只會(huì)更小撬腾,這時(shí)推薦使用 query+groups:

???????第二,對(duì)于大數(shù)據(jù)量恢恼,如果結(jié)果集也很大民傻,那么就應(yīng)該使用 cursor+groupx。

???????另外,由于大結(jié)果集的分組計(jì)算較慢漓踢,需要在外存產(chǎn)生緩存數(shù)據(jù)牵署。而如果我們?cè)跀?shù)據(jù)庫(kù)中對(duì)數(shù)據(jù)先排序,則可以避免這種緩存(此時(shí)計(jì)算壓力會(huì)轉(zhuǎn)到數(shù)據(jù)庫(kù)喧半,因此需要根據(jù)實(shí)際情況權(quán)衡奴迅,通常情況下,數(shù)據(jù)庫(kù)服務(wù)器的計(jì)算能力會(huì)更強(qiáng)一些)挺据。

???????具體的辦法是對(duì) SQL 的結(jié)果集使用 order by 排序取具,然后在集算器中使用 mergex 函數(shù)歸并后,再使用 groupx 的 @o 選項(xiàng)分組:

???????當(dāng)然如果不希望加重?cái)?shù)據(jù)庫(kù)負(fù)擔(dān)扁耐,也可以讓數(shù)據(jù)庫(kù)只做分組而不排序暇检,此時(shí)集算器直接用 groupx,注意不能加 @o 選項(xiàng)婉称。另外匯總數(shù)據(jù)時(shí)块仆,也要把 mergex 換成 conjx:

???????第三,如果已明確地知道結(jié)果集很小酿矢,那么推薦用 cursor+groups

???????此時(shí) groups 比 groupx 有更好的性能榨乎,因?yàn)?groups 將運(yùn)算數(shù)據(jù)都保存在內(nèi)存中,比 groupx 節(jié)省了寫入外存文件的時(shí)間瘫筐。

???????另外用 groups 可以不要求在數(shù)據(jù)庫(kù)中預(yù)先排序募谎,因?yàn)閿?shù)據(jù)庫(kù) group by 的結(jié)果集本身不一定有序咒唆,再使用 orde by 排序也會(huì)增加成本。而對(duì)于小結(jié)果集,集算器用 groups@o 也并不一定比直接用 groups 更有效率相种。

???????通常,匯總數(shù)據(jù)要用 conjx

???????B呀页、去重后計(jì)數(shù) (count distinct)

???????在各個(gè)數(shù)據(jù)庫(kù)內(nèi)去重蝇率,可以使用 distinct 關(guān)鍵字。而數(shù)據(jù)庫(kù)之間的數(shù)據(jù)去重棺禾,則可以使用集算器的 merge@u 函數(shù)缀蹄。要注意的是使用前應(yīng)該確保表內(nèi)數(shù)據(jù)對(duì)主鍵字段(或者具有唯一性的一個(gè)或多個(gè)字段)有序。

???????對(duì)于 distinct 來說膘婶, sum(distinct)缺前、avg(distinct) 的計(jì)算方法與 count(distinct) 大同小異,而且業(yè)務(wù)中不常用到悬襟,而 max(distinct)衅码、min(distinct) 與單純使用 max、min 沒有區(qū)別脊岳。因此逝段,我們只以 count(distinct) 為例加以說明垛玻。

???????比如,想要計(jì)算全年級(jí)(假設(shè)只有一班和二班)語數(shù)外三科至少有一科不及格需要補(bǔ)考的總?cè)藬?shù)奶躯,單數(shù)據(jù)庫(kù)的 SQL 是這樣的:

???????SELECT count(distinct 學(xué)生 ID) 人數(shù) FROM 學(xué)生成績(jī)表 WHERE 成績(jī) <60

???????對(duì)于多源數(shù)據(jù)帚桩,全分組聚合在使用游標(biāo)或序表方面沒有差別,為了語法簡(jiǎn)便起見以游標(biāo)為例:

???????再如巫糙,想要分別計(jì)算每班語數(shù)外三科至少有一科不及格需要補(bǔ)考的總?cè)藬?shù)朗儒,單數(shù)據(jù)庫(kù)的 SQL 是這樣的:

???????SELECT 班級(jí), count(distinct 學(xué)生 ID) 人數(shù) FROM 學(xué)生成績(jī)表 WHERE 成績(jī) <60 GROUP BY 班級(jí)

???????對(duì)于多數(shù)據(jù)庫(kù),同樣需要先匯總?cè)ブ夭窝停龠M(jìn)行分組聚合醉锄。匯總前需要數(shù)據(jù)有序,且匯總后數(shù)據(jù)仍然有序浙值,所以分組函數(shù) groups 和 groupx 都可以使用 @o 選項(xiàng)恳不。

???????對(duì)于小數(shù)據(jù)量,可以使用 merge@u开呐、groups@o 和 query:

???????對(duì)于大數(shù)據(jù)量小結(jié)果集烟勋,可以使用 mergex@u、groups@o 和 cursor:

???????對(duì)于大數(shù)據(jù)量大結(jié)果集筐付,可以使用 mergex@u卵惦、groupx@o 和 cursor:

???????C、對(duì)聚合字段過濾(having)

???????having 是對(duì)聚合 (分組) 后得出的結(jié)果集再做過濾瓦戚。所以當(dāng)語句中有 having 出現(xiàn)時(shí)沮尿,如果聚合 (分組) 操作沒有徹底執(zhí)行完畢,需要將 having 子句先提取出來较解。待數(shù)據(jù)徹底完成聚合 (分組) 操作之后畜疾,再執(zhí)行條件過濾。

???????對(duì)于多源數(shù)據(jù)印衔,如果聚合計(jì)算是在匯總之后才能最終完成啡捶,那么 having 必須使用集算器的函數(shù) select 來實(shí)現(xiàn)過濾。

???????下面主要說明這種聚合計(jì)算在匯總之后才完成的情況:比如奸焙,想要獲得一班和二班的三個(gè)科目的考試中瞎暑,有哪些平均分是低于 60 分的。對(duì)于單數(shù)據(jù)庫(kù)与帆,SQL 可以這樣寫:

SELECT 班級(jí), 科目, avg(成績(jī)) 平均分 FROM 學(xué)生成績(jī)表 GROUP BY 班級(jí), 科目 HAVING avg(成績(jī))<60

???????對(duì)于多數(shù)據(jù)庫(kù)了赌,相關(guān)集算器執(zhí)行代碼如下:

???????對(duì)于大數(shù)據(jù)量,需要使用游標(biāo) (select 函數(shù)同樣適用于游標(biāo))


6.??? JOIN ON

???????跨庫(kù)的 JOIN 實(shí)現(xiàn)起來非常困難鲤桥,不過比較幸運(yùn)的是,我們可以通過存儲(chǔ)設(shè)計(jì)避免很多跨庫(kù) JOIN渠概。我們分三種情況討論:

???????1. 同維表分庫(kù)茶凳,需要重新拼接為一個(gè)表

???????2. 要連接的外鍵表在每個(gè)庫(kù)中都有相同的一份

???????3. 需要連接的外鍵表在另一個(gè)庫(kù)中

???????對(duì)于集算器來講嫂拴,前兩種的處理情況是一樣的:都不需要涉及跨庫(kù) join,join 操作都可以在數(shù)據(jù)庫(kù)內(nèi)完成贮喧。區(qū)別只在于第一種是分庫(kù)表筒狠,數(shù)據(jù)庫(kù)之間沒有重復(fù)數(shù)據(jù);而第二種則要求把外鍵表的數(shù)據(jù)復(fù)制到每個(gè)庫(kù)中箱沦。

???????如果外鍵表沒有復(fù)制到每個(gè)庫(kù)中辩恼,那就會(huì)涉及真正的跨庫(kù) join,因?yàn)楹軓?fù)雜谓形,這里只舉一個(gè)內(nèi)存外鍵表的例子灶伊,其它更復(fù)雜情況會(huì)有專門的文章闡述。

???????A寒跳、同維表或主子表同步分庫(kù)

???????所謂同維表聘萨,簡(jiǎn)單來講就是兩個(gè)表的主鍵字段完全一樣,且其中一個(gè)表的主鍵與另一個(gè)表的主鍵有邏輯意義上的外鍵約束(并不要求數(shù)據(jù)庫(kù)中一定有真正的外鍵童太,主鍵同理也是邏輯上的主鍵并不一定存在于數(shù)據(jù)庫(kù)中)米辐。

???????假設(shè)有兩個(gè)庫(kù),每個(gè)庫(kù)中有兩個(gè)表书释,分別記為 A 庫(kù)中的 A1 表和 A2 表翘贮,B 庫(kù)中的 B1 表和 B2 表。從邏輯上看 1 表是 A1 表加上 B1 表爆惧,2 表是 A2 表加上 B2 表狸页,我們?cè)偌僭O(shè) 1 表與 2 表為同維表,現(xiàn)在要做 1 表與 2 表的 join 連接運(yùn)算检激。

???????所謂同步分庫(kù)肴捉,就是在設(shè)計(jì)分庫(kù)存儲(chǔ)時(shí),保證了 1 表和 2 表按主鍵進(jìn)行了同步的分割叔收。也就是必須保證分庫(kù)之后齿穗,A1 和 B2 的 join 等值連接的結(jié)果是空集,同樣 A2 和 B1 的 join 等值連接的結(jié)果也是空集饺律,這樣也就不必有跨庫(kù)的 join 連接運(yùn)算了窃页。

???????舉例說明,比如有兩張表:股票信息與公司信息复濒,表的結(jié)構(gòu)如下:

公司信息

股票信息

???????兩個(gè)表的主鍵都是 (公司代碼, 股票代碼)脖卖,且股票信息的主鍵與公司信息的主鍵有邏輯意義上的外鍵約束關(guān)系,二者互為同維表巧颈。

???????現(xiàn)在假設(shè)我想將兩個(gè)表拼接在一起畦木,單數(shù)據(jù)庫(kù)時(shí) SQL 是這樣的:

???????SELECT * FROM 公司信息 T1 JOIN 股票信息 T2 ON T1. 公司代碼 =T2. 公司代碼 AND T1. 股票代碼 = T2. 股票代碼

???????現(xiàn)假設(shè)公司信息分為兩部分,分別存于 HSQL 和 MYSQL 數(shù)據(jù)庫(kù)中砸泛,股票信息同樣分為兩部分十籍,分別存于 HSQL 和 MYSQL 數(shù)據(jù)庫(kù)中蛆封,且二者是同步分庫(kù)。

???????join 連接公司信息與股票信息的集算器代碼:

???????對(duì)于大數(shù)據(jù):

???????主子表的情況與同維表類似勾栗,即一個(gè)表(主表)的主鍵字段被另一個(gè)表(子表)的主鍵字段所包含惨篱,且子表中對(duì)應(yīng)的主鍵字段與主表的主鍵有邏輯意義上的外鍵約束關(guān)系。

???????舉例說明围俘,比如有兩張表:訂單與訂單明細(xì)砸讳,表的結(jié)構(gòu)如下:

訂單

訂單明細(xì)

???????其中訂單是主表,主鍵為 (訂單 ID)界牡;而訂單明細(xì)為子表簿寂,主鍵為 (訂單 ID, 產(chǎn)品 ID),且訂單明細(xì)的主鍵字段訂單 ID欢揖,與訂單的主鍵有邏輯意義上的外鍵約束關(guān)系陶耍,顯然二者為主子表的關(guān)系。

???????現(xiàn)在假設(shè)我想將兩個(gè)表拼接在一起她混,單數(shù)據(jù)庫(kù)的 SQL 是這樣的:

???????SELECT * FROM 訂單 T1 JOIN 訂單明細(xì) T2 ON T1. 訂單 ID=T2. 訂單 ID

???????現(xiàn)假設(shè)訂單分為兩部分烈钞,分別存于 HSQL 和 MYSQL 數(shù)據(jù)庫(kù)中,訂單明細(xì)同樣分為兩部分坤按,分別存于 HSQL 和 MYSQL 數(shù)據(jù)庫(kù)中毯欣,且二者同步分庫(kù)。

???????join 連接訂單與訂單明細(xì)的集算器代碼:

???????對(duì)于大數(shù)據(jù):

???????B臭脓、外鍵表復(fù)制進(jìn)每個(gè)庫(kù)

???????所謂外鍵表酗钞,即是指連接字段為外鍵字段的情況。這種外鍵表 join 也是業(yè)務(wù)上常見的一種情況来累。因?yàn)橐B接的外鍵表在每個(gè)庫(kù)中都有同一份砚作,那么兩個(gè)外鍵表匯總并去重后,其實(shí)還是任一數(shù)據(jù)庫(kù)中原來就有的那個(gè)外鍵表嘹锁。

???????而 join 的連接操作葫录,本質(zhì)上可以視為一種乘法,因?yàn)?join 連接等價(jià)于 cross join 后再用 on 中條件進(jìn)行過濾领猾。則根據(jù)乘法分配率可以推導(dǎo)出:若是需要做連接操作的外鍵表(不妨設(shè)為連接右側(cè)的表)在每個(gè)庫(kù)中都有同一份米同,則連接左側(cè)的表(每個(gè)數(shù)據(jù)庫(kù)中各有其一部分)在匯總后再連接,等同于各數(shù)據(jù)中的連接左側(cè)的表與外鍵表先做連接操作后摔竿,再匯總到一起的結(jié)果面粮。如圖所示:

???????所以我們?cè)诖鎯?chǔ)設(shè)計(jì)時(shí),只要在每個(gè)數(shù)據(jù)庫(kù)中把外鍵表都重復(fù)一下继低,就可以避免復(fù)雜的跨庫(kù) join 操作熬苍。一般情況下,外鍵表作為維表的數(shù)據(jù)量相對(duì)較小袁翁,這樣重復(fù)的成本就不會(huì)很高柴底,而事實(shí)表則會(huì)得很大钱磅,然后用分庫(kù)存儲(chǔ)的方法,來解決運(yùn)算速度緩慢或存儲(chǔ)空間不足等問題似枕。

???????例如,有兩個(gè)表:客戶銷售表和客戶表年柠,其中客戶銷售表的外鍵字段:客戶凿歼,與客戶表的主鍵字段:客戶 ID,有外鍵約束關(guān)系∪吆蓿現(xiàn)在我們想查詢面向河北省各公司的銷售額記錄答憔,對(duì)于單數(shù)據(jù)源,它的 SQL 是這樣寫的:

???????SELECT T1. 公司名稱 公司名稱, T2. 訂購(gòu)日期 訂購(gòu)日期, T2. 銷售額 銷售額 FROM 客戶表 T1 JOIN 客戶銷售表 T2 ON T1. 客戶 ID=T2. 客戶 WHERE T1. 省份 ='河北'

???????對(duì)于多數(shù)據(jù)源的情況掀抹,我們假設(shè)客戶銷售表分別存儲(chǔ)在兩個(gè)不同的數(shù)據(jù)庫(kù)中虐拓,而每個(gè)數(shù)據(jù)庫(kù)中都有同一份的客戶表做為外鍵表。則相關(guān)的集算器代碼如下:

???????大數(shù)據(jù)量使用游標(biāo)時(shí):

???????C傲武、需要連接的外鍵表在另一個(gè)庫(kù)中

???????對(duì)于維表(外鍵表)也被分庫(kù)的情況蓉驹,我們只考慮維表全部可內(nèi)存化的情況,不可內(nèi)存化時(shí)揪利,常常就不適合再將數(shù)據(jù)存在數(shù)據(jù)庫(kù)中了态兴,需要專門針對(duì)性的的存儲(chǔ)和計(jì)算方案,這將在另外的文章中專門討論疟位。在這里我們只通過例子來討論維表可內(nèi)存化的情況瞻润。

???????對(duì)于這種情況,當(dāng)涉及的數(shù)據(jù)量比較大而需要使用游標(biāo)時(shí)甜刻,計(jì)算邏輯會(huì)變得比較復(fù)雜绍撞。所以我們?cè)谶@里只講一下針對(duì)小數(shù)據(jù)量的使用序表的 join 處理方法。關(guān)于對(duì)大數(shù)據(jù)量的使用游標(biāo)的 join 處理得院,會(huì)另有一篇文章做專門的介紹傻铣。

???????當(dāng)要做 join 連接運(yùn)算的外鍵表全部或部分存儲(chǔ)在另一個(gè)庫(kù)中時(shí),最直觀的辦法就是將兩個(gè)表都提取出來并各自匯總后尿招,再計(jì)算 join 連接矾柜。

???????下面仍以客戶銷售表和客戶表來舉例,假設(shè)外鍵表客戶表也分別存儲(chǔ)在兩個(gè)數(shù)據(jù)庫(kù)中就谜,此時(shí)就不能在 SQL 中使用 join 關(guān)鍵字來實(shí)現(xiàn)連接運(yùn)算了怪蔑,但我們可以將其提取出來后,用集算器的 join 函數(shù)來實(shí)現(xiàn)目的丧荐,它的集算器代碼如下所示:

???????當(dāng)事實(shí)表數(shù)據(jù)量較大的時(shí)候缆瓣,也可以使用游標(biāo)處理事實(shí)表,只需將 join 換成 cs.join 即可:


7.??? 簡(jiǎn)單 SQL

???????前面我們主要是從計(jì)算原理的角度出發(fā)虹统,分析了如何使用集算器實(shí)現(xiàn)類似 SQL 效果的多數(shù)據(jù)源混合計(jì)算弓坞。除此之外隧甚,集算器還提供了一種更簡(jiǎn)單、直觀的方法渡冻,那就是可以在各個(gè)數(shù)據(jù)庫(kù)上通過 SQL 查詢獲取游標(biāo)戚扳,用所有這些游標(biāo)構(gòu)建成一個(gè)多路游標(biāo)對(duì)象,再用簡(jiǎn)單 SQL 對(duì)這個(gè)多路游標(biāo)做二次處理族吻。如果簡(jiǎn)單 SQL 中沒有涉及 join 的運(yùn)算帽借,甚至還可以讓集算器直接將一句簡(jiǎn)單 SQL 翻譯成各種數(shù)據(jù)庫(kù)的 SQL,從而實(shí)現(xiàn)更進(jìn)一步的自動(dòng)化超歌。不過這種辦法屬于比較保守的做法砍艾,雖然簡(jiǎn)單直接,但不能利用所了解的數(shù)據(jù)情況進(jìn)行優(yōu)化(比如不會(huì)使用 groups)巍举,因此性能就會(huì)差一些脆荷。

???????下面仍舊用學(xué)生成績(jī)的例子,我們想要計(jì)算每個(gè)班的數(shù)學(xué)成績(jī)的總分懊悯、考試人數(shù)蜓谋、平均分、最高分和最低分炭分,使用簡(jiǎn)單 SQL 處理這個(gè)問題的集算器代碼如下:

???????因?yàn)槭褂昧擞螛?biāo)孤澎,所以這種寫法也可以用于大數(shù)據(jù)量。另外再提一句欠窒,這個(gè)辦法甚至也可以用于非數(shù)據(jù)庫(kù)的數(shù)據(jù)源(比如文件數(shù)據(jù)源)覆旭!簡(jiǎn)單 SQL 的特性可參考相關(guān)文檔,這里就不再進(jìn)一步舉例了岖妄。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末型将,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子荐虐,更是在濱河造成了極大的恐慌七兜,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,948評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件福扬,死亡現(xiàn)場(chǎng)離奇詭異腕铸,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)铛碑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門狠裹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人汽烦,你說我怎么就攤上這事涛菠。” “怎么了?”我有些...
    開封第一講書人閱讀 157,490評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵俗冻,是天一觀的道長(zhǎng)礁叔。 經(jīng)常有香客問我,道長(zhǎng)迄薄,這世上最難降的妖魔是什么琅关? 我笑而不...
    開封第一講書人閱讀 56,521評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮讥蔽,結(jié)果婚禮上死姚,老公的妹妹穿的比我還像新娘。我一直安慰自己勤篮,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評(píng)論 6 386
  • 文/花漫 我一把揭開白布色罚。 她就那樣靜靜地躺著碰缔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪戳护。 梳的紋絲不亂的頭發(fā)上金抡,一...
    開封第一講書人閱讀 49,842評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音腌且,去河邊找鬼梗肝。 笑死,一個(gè)胖子當(dāng)著我的面吹牛铺董,可吹牛的內(nèi)容都是我干的巫击。 我是一名探鬼主播,決...
    沈念sama閱讀 38,997評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼精续,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼坝锰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起重付,我...
    開封第一講書人閱讀 37,741評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤顷级,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后确垫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體弓颈,經(jīng)...
    沈念sama閱讀 44,203評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評(píng)論 2 327
  • 正文 我和宋清朗相戀三年删掀,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了翔冀。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,673評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡披泪,死狀恐怖橘蜜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤计福,帶...
    沈念sama閱讀 34,339評(píng)論 4 330
  • 正文 年R本政府宣布跌捆,位于F島的核電站,受9級(jí)特大地震影響象颖,放射性物質(zhì)發(fā)生泄漏佩厚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評(píng)論 3 313
  • 文/蒙蒙 一说订、第九天 我趴在偏房一處隱蔽的房頂上張望抄瓦。 院中可真熱鬧,春花似錦陶冷、人聲如沸钙姊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽煞额。三九已至,卻和暖如春沾谜,著一層夾襖步出監(jiān)牢的瞬間膊毁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工基跑, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留婚温,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,394評(píng)論 2 360
  • 正文 我出身青樓媳否,卻偏偏與公主長(zhǎng)得像栅螟,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子篱竭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容